Vous êtes sur la page 1sur 21

Unidad 1: Fase 2

Elaborar documento de identificación y análisis de variables estadísticas

Presentado por:
Carlos Wilfredo Soto Lopéz

Presentado a:
Luis Alberto Cáceres Torres

Programa:
Agronomía

Universidad Nacional Abierta y a Distancia UNAD


Curso de Estadística Descriptiva
Buga, 08 de Octubre de 2019
Introducción
La estadística descriptiva es un área fundamental de estudio para las ciencias agropecuarias,
ya que nos permite, junto con otras áreas, como el diseño experimental, poder desarrollar
estudios de investigación aplicados al desarrollo agrario y pecuario. Es importantísimo
entonces, que como futuros profesionales, adquiramos las competencias y habilidades
necesarias para poder aplicar la estadística descriptiva de forma correcta y eficiente y poder
con ello ser profesionales competentes.
En ese orden de ideas, a continuación se exponen una serie de conceptos fundamentales que
deben ser interiorizados antes de adentrarnos en el estudio práctico de la estadística
descriptiva y que se consideran, son las bases para el desarrollo del presente curso.
Objetivos
- Interpretar los fundamentos de los tipos de variables estadísticas cuantitativas y
cualitativas.
- Desarrollar competencias para realizar recomendaciones de uso y manejo de las
variables estadísticas.
Desarrollo de preguntas orientadoras
Variable cuantitativa continúa
Las variables cuantitativas CONTINUAS, que pueden tomar cualquier valor numérico,
entero o decimal, de forma que teóricamente entre dos valores posibles siempre se pueden
encontrar otros (entre 65.3 Kg. y 65.4 Kg. de peso siempre está 65.37 Kg., por ejemplo),
aunque en la práctica el número de cifras decimales está limitado y la variable se maneja en
cierto modo como discreta.
Variable cuantitativa discreta
Las variables cuantitativas DISCRETAS, cuyos valores son aislados (habitualmente números
enteros), de forma que pueden enumerarse y existen valores “consecutivos” entre los que no
puede haber otro; Por ejemplo, un resumen puede tener 349 ó 350, pero no 349.17 palabras.
Variable cualitativa nominal
Una variable puede ser tratada como nominal cuando sus valores representan categorías que
no obedecen a una clasificación intrínseca. Por ejemplo, el departamento de la compañía en
el que trabaja un empleado. Algunos ejemplos de variables nominales son: región, código
postal o confesión religiosa.
Variable cualitativa categórica
La variable cualitativa (o variable categórica) es una variable que pueden tomar como valores
cualidades o categorías. Ejemplos: Sexo (hombre, mujer) Salud (buena, regular, mala).
Media poblacional
La media poblacional técnicamente no es una media sino un parámetro fijo que coincide con
la esperanza matemática de una variable aleatoria. El nombre "media poblacional" se usa
para significar qué valor numérico de una media muestral es numéricamente cercano al
parámetro media poblacional, para una muestra adecuada y suficientemente grande.
Media muestral. Mostrar la fórmula de cálculo.
La media muestral es una variable aleatoria, ya que depende de la muestra, si bien es una
variable aleatoria en general con una varianza menor que las variables originales usadas en
su cálculo. Si la muestra es grande y está bien escogida, puede tratarse la media muestral
como un valor numérico que aproxima con precisión la media poblacional, que caracteriza
una propiedad objetiva de la población. Se define como sigue, si se tiene una muestra
estadística de valores (X1, X2,……Xn) de valores para una variable aleatoria X con
distribución de probabilidad F(x,θ) [donde θ es un conjunto de parámetros de la distribución]
se define la media muestral n-ésima como:
Varianza poblacional
Cuadrado de la desviación estándar poblacional.
Varianza muestral. Registrar fórmulas de cálculo.
En muchas situaciones es preciso estimar la varianza de una población a partir de una
muestra. Si se toma una muestra con reemplazo (Y1, Y2,……Yn) de n valores de ella, de
entre todos los estimadores posibles de la varianza de la población de partida, existen dos de
uso corriente:

Para el caso de datos agrupados, se usan estas dos:

Desviación estándar
La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos
están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor
será la dispersión de los datos.
El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de
una población, mientras que s se utiliza para representar la desviación estándar de una
muestra. La variación que es aleatoria o natural de un proceso se conoce comúnmente como
ruido.
La desviación estándar se puede utilizar para establecer un valor de referencia para estimar
la variación general de un proceso.
Ejemplo: Tiempos de egreso de un hospital
Considere el ejemplo siguiente. Los administradores dan seguimiento al tiempo de egreso de
los pacientes tratados en las áreas de urgencia de dos hospitales. Aunque los tiempos de
egreso promedio son aproximadamente iguales (35 minutos), las desviaciones estándar son
significativamente diferentes. La desviación estándar del hospital 1 es de aproximadamente
6. En promedio, el tiempo para dar de alta a un paciente se desvía de la media (línea
discontinua) aproximadamente 6 minutos. La desviación estándar del hospital 2 es de
aproximadamente 20. En promedio, el tiempo para dar de alta a un paciente se desvía de la
media (línea discontinua) aproximadamente 20 minutos.

Imagen tomada de https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-


topics/data-concepts/what-is-the-standard-deviation/

Mediana
Es el valor que está en el centro de la distribución, es decir, el valor que supera a la mitad de
los de la muestra y se ve superado por la otra mitad (salvo empates en ambos casos); se
calcula buscando el valor de la muestra que ocupa el lugar (n+1)/2, con los datos ordenados.
Moda
Es el valor de la variable que tiene mayor frecuencia en la muestra, es decir, el que se repite
más (moda se asocia con lo más frecuente). En nuestro ejemplo es el valor 0, que tiene una
frecuencia absoluta de cuatro, que es la más grande. La moda puede definirse para cualquier
tipo de variables. También se puede hablar de moda local o secundaria, que sería cualquier
valor más frecuente que sus adyacentes, es decir, con más frecuencia que la que tengan el
anterior y el posterior, lo que requiere al menos orden en los datos.
Imagen tomada de https://es.wikipedia.org/wiki/Mediana_(estad%C3%ADstica)

Cuartiles
Definen las cuartas partes de la muestra mediante tres “cortes”: el primer cuartil deja por
debajo al 25% de la distribución, el segundo coincide con la mediana y el tercero deja por
debajo al 75% de la distribución. No tienen mucho sentido en muestras pequeñas, pero en
nuestro ejemplo valdrían respectivamente 0, 1 y 3.5 (que están situados en las posiciones
“tercera y media”, séptima y “décima y media” de los datos ordenados).

Imagen tomada de https://epamatematicas.blogspot.com/2017/08/cuartiles-deciles-y-percentiles.html


Cálculo de los cuartiles:
1 Ordenamos los datos de menor a mayor.
2 Buscamos el lugar que ocupa cada cuartil mediante la expresión Cálculo de los cuartiles.
Para datos no agrupados:

Para datos no agrupados:

Percentiles
Son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las
personas cuando atienden características tales como peso, estatura, etc. Los percentiles son
ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente
iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos
ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99.
Fórmula para datos agrupados:

Fórmula para datos no agrupados:


Regla de Sturges ¿para qué sirve?
La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos
que son necesarios para representar gráficamente un conjunto de datos estadísticos. Esta regla
fue enunciada en 1926 por el matemático alemán Herbert Sturges. Sturges propuso un
método sencillo, basado en el número de muestras x que permitiesen encontrar el número de
clases y su amplitud de rango. La regla de Sturges es muy utilizada sobre todo en el área de
la estadística, específicamente para construir histogramas de frecuencia.
Sturges estableció que el número óptimo de intervalos k es dado por la expresión:

También puede ser expresada como:

En esta expresión:
k es el número de clases.
N es el número total de observaciones de la muestra.
Log es el logaritmo común de base 10.
Frecuencia absoluta
Es el número de veces que una modalidad o un valor de una variable aparece entre los datos
de una muestra; si en una muestra de la variable “nivel de estudios” aparecen 148 personas
con nivel de estudios “superiores”, diremos que 148 es la frecuencia absoluta de la modalidad
“superiores”. Naturalmente, el número total de datos es n y, por tanto, la suma de las
frecuencias absolutas de todas las modalidades o valores debe ser igual al tamaño muestral
n.
Frecuencia relativa
Es su frecuencia absoluta dividida entre el tamaño muestral, es decir, la proporción de veces
que aparece esa modalidad o valor entre todos los datos de la muestra; si la frecuencia
absoluta 148 del ejemplo anterior corresponde a una muestra de 2000 personas, diremos que
la frecuencia relativa de la modalidad AB es 148/2000 = 0.074.
Es claro que la suma de las frecuencias relativas de todas las modalidades o valores debe ser
1, ya que las absolutas suman n y estamos dividiendo entre n. Es muy habitual expresar las
frecuencias relativas como porcentajes (multiplicándolas por cien) y entonces la frecuencia
relativa del ejemplo sería 7.4 % y la condición de la suma sería que deben sumar 100 %, lo
que se entiende mejor (la frecuencia relativa es la parte del total de datos que corresponde a
cada valor o modalidad).
Frecuencia absoluta acumulada
La frecuencia absoluta acumulada es el resultado de ir sumando las frecuencias absolutas de
las observaciones o valores de una población o muestra. Esta se representa por las siglas Fi.
Para calcular la frecuencia absoluta acumulada, hay que calcular primero la frecuencia
absoluta (fi) de la población o muestra
Frecuencia relativa acumulada
La frecuencia relativa acumulada es el resultado de ir sumando las frecuencias relativas de
las observaciones o valores de una población o muestra. Esta se representa por las siglas Hi.
Para calcular la frecuencia relativa acumulada, hay que calcular primero la frecuencia
absoluta (fi) y la frecuencia relativa (hi) de los valores de la población o muestra.
Tabla de frecuencias
Las Tablas de frecuencias son herramientas de Estadística donde se colocan los datos en
columnas representando los distintos valores recogidos en la muestra y las frecuencias (las
veces) en que ocurren.
- Tabla de frecuencia de datos no agrupados: Los datos no agrupados son las de observaciones
realizadas en un estudio estadístico que se presentan en su forma original tal y como fueron
recolectados, para obtener información directamente de ellos.
La Tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen los
datos estadísticos sin que se haya hecho ninguna modificación al tamaño de las unidades
originales.
En estas distribuciones cada dato mantiene su propia identidad después que la distribución
de frecuencia se ha elaborado. En estas distribuciones los valores de cada variable han sido
solamente reagrupados, siguiendo un orden lógico con sus respectivas frecuencias.
- Tabla de frecuencia de datos agrupados: La Tabla de frecuencia de datos agrupados aquella
distribución en la que los datos estadísticos se encuentran ordenados en clases y con la
frecuencia de cada clase; es decir, los datos originales de varios valores adyacentes del
conjunto se combinan para formar un intervalo de clase.
La tabla de frecuencias agrupadas se emplea generalmente si las variables toman un número
grande de valores o la variable es continua.
En este caso se agrupan los valores en intervalos que tengan la misma amplitud denominados
clases. A cada clase se le asigna su frecuencia correspondiente. La tabla de frecuencias de
datos no agrupados se emplea si las variables toman un número pequeños de valores o la
variable es discreta.
Imagen tomada de https://steemit.com/spanish/@xandra79/introduccion-a-las-tablas-de-frecuencias-y-los-graficos-
estadisticos

¿Cómo es la tabla de frecuencias de una variable continua y de una discreta? ¿Cuál


tiene intervalos?
Según la naturaleza de la variable estudiada las distribuciones de frecuencias pueden ser:
NO AGRUPADAS: se presentan cuando el número de valores que puede presentar la
variable no es muy elevado, y en ese caso podemos observar todos los valores de esa variable.
Este caso se presenta cuando la variable es discreta y no presenta excesivos valores.
AGRUPADAS EN INTERVALOS: se presenta cuando la variable es continua o cuando es
discreta pero con elevado número de valores. En esta situación se agrupan dichos valores en
intervalos o clases. Los intervalos se notan: ei-1-ei es es intervalo i-ésimo.
Se llama amplitud del intervalo a la distancia que existe entre los extremos, y se nota así:
ai = ei -ei-1
Se llama marca de clase al punto medio de un intervalo. Este punto es importante porque es
el representante del intervalo. Se nota así:
xi = (ei + ei-1)/2
Se llama densidad de frecuencia de un intervalo a la frecuencia correspondiente a cada unidad
de la variable en dicho intervalo, se nota así:
di = ni /ai
Los intervalos se suelen tomar abiertos por la izquierda y cerrados por la derecha, salvo el
primero que se toma cerrado por los dos lados. En este tipo de distribuciones se pierde parte
de la información al agruparlas en intervalos, ya no se puede hablar de valores concretos sino
de intervalos. Cuanto mayor sea la amplitud de los intervalos menos intervalos habrá, y por
tanto menos precisión tendremos. En cambio, cuanto menor sea la amplitud de los intervalos
menos intervalos habrá, y mayor será la precisión, sin embargo la distribución será más
grande y más difícil de manejar.
Boxplot o diagrama de cajas
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual
que describe varias características importantes, al mismo tiempo, tales como la dispersión y
simetría. Para su realización se representan los tres cuartiles y los valores mínimo y máximo
de los datos, sobre un rectángulo, alineado horizontal o verticalmente.
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran
el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica
donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero
(recordemos que el segundo cuartil coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo
y máximo de la variable. Las líneas que sobresalen de la caja se llaman bigotes. Estos bigotes
tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre
dentro de este rango es marcado e identificado individualmente.

Imagen tomada de http://www.estadisticaparatodos.es/taller/graficas/cajas.html


Histograma y en qué tipo de variables se usa
Es la gráfica adecuada para representar variables cuantitativas continuas. Estas variables
cubren teóricamente con sus valores a la recta de los números reales, o al menos de un cierto
intervalo, de manera que “infinitamente” junto a un valor se encontraría otro y no se producen
“saltos” entre ellos. En la práctica, esto se traduce en que casi siempre se maneja un gran
número de valores distintos y ello hace poco adecuado para estas variables un diagrama de
segmentos; por ello, y para respetar la continuidad de la variable, lo que se hace es agrupar
los valores en intervalos y gráficamente se representan rectángulos yuxtapuestos cuyas bases
descansan sobre la horizontal y cuyas alturas son tales que el área de cada rectángulo sea
proporcional a la frecuencia de cada intervalo. A veces estos histogramas son llamados
erróneamente diagramas de barras.
Imágenes tomadas de http://www.hrc.es/bioest/Ejemplos_histo.html
Gráfico de barras y en qué tipo de variables se usa
El diagrama de barras (o gráfico de barras) es un gráfico que se utiliza para representar datos
de variables cualitativas o discretas. Consistente en asociar a cada modalidad de la variable
un rectángulo cuya superficie refleje su frecuencia: las modalidades se suelen situar en
horizontal y la escala de frecuencias absolutas o relativas en vertical. Si las bases de los
rectángulos se dibujan todas iguales, para cumplir la regla fundamental antes citada basta
tomar como alturas de los rectángulos directamente las frecuencias, sin mayor complicación
(el rectángulo de una modalidad con frecuencia 7 tendrá altura 7 y así con todas). Los
rectángulos suelen representarse separados en este tipo de gráficas, que también pueden
aparecer con las barras horizontales y las modalidades situadas verticalmente.
Ejercicio Programa R
Tabla de Resultados
VALOR VARIABLE VARIABLE
CONTINUA EDAD DISCRETA HERMANOS
MEDIA (MEAN) 20.3 2.6
MEDIANA (MEDIAN) 20.5 2.5
# DE DATOS (LENGTH) 10 10
MÍNIMO (MIN) 15 0
MÁXIMO (MAX) 25 5
VARIANZA (VAR) 11.12 2.71
DESVIACIÓN 3.335 1.6465
STÁNDAR (SD)
RANGO (RANGE) 15 - 25 0-5
CUANTIL 25% 18 1.25
CUANTIL 50% 20.5 2.5
(MEDIANA)
CUANTIL 75% 22.75 4

Graficas e Interpretación de la Variable Cuantitativa Continua Edad


En este boxplot –diagrama de caja se representa el comportamiento para la variable continua
de “edad” por cuartiles y se interpreta así:
- En el margen inferior se presenta el cuartil 1 (Q1) (25%) con 18 años
- En el margen del medio se presenta el cuartil 2 (Q2) (50%) o también conocido como
la mediana con 20.30 años
- En la margen superior se presenta el cuartil 3 (Q3) (75%) con 22.75 años.

En este Histograma de Edad se representa la frecuencia con la que aparecen los datos de la
variable Edad. Como se trata de una variable continua, se representa en intervalos y se
interpreta así:
- En el intervalo entre 14 a 16 años hay 1 solo dato
- En el intervalo entre 16 a 18 años hay 3 datos
- En el intervalo entre 18 a 20 años hay 1 solo dato
- En el intervalo entre 20 a 22 años hay 2 datos
- En el intervalo entre 22 a 24 años hay 2 datos
- En el intervalo entre 24 a 26 años hay solo 1 dato
Graficas e Interpretación de la Variable Cuantitativa Discreta Hermanos

En este boxplot –diagrama de caja se representa el comportamiento para la variable discreta


de “hermanos” según los cuartiles y se interpreta así:
- En el margen inferior se presenta el cuartil 1 (Q1) (25%) con 1.25 hermanos
- En la margen del medio se representa el cuartil 2 (Q2) (50%) o también conocido
como la mediana con 2.5 hermanos
- En la margen superior se representa el cuartil 3 (Q3) (75%) con 4 hermanos.

En este Histograma de Edad se representa la frecuencia con la que aparecen los datos de la
variable Hermanos, que por tratarse de una variable discreta no es necesario hacerlo por
intervalos, y se interpreta así:
- Para la clase 0 hermanos, hay 1 solo dato (El 10% tiene 0 hermanos)
- Para la clase 1 hermano, hay 2 datos (El 20% tiene 2 hermanos)
- Para la clase 2 hermanos, hay 2 datos
- Para la clase 3 hermanos, hay 1 solo dato
- Para la clase 4 hermanos, hay 3 datos
- Para la clase 5 hermanos, hay solo 1 dato

En el gráfico de tarta se representa la variable hermanos en proporciones porcentuales y se


interpreta así:
- Color Rojo: Personas que tienen 0 hermanos que representan el 10%
- Color Amarillo: Personas que tienen 1 hermano que representan el 20%
- Color Verde: Personas que tienen 2 hermanos que representan el 20%
- Color Azul Aguamarina: Personas que tienen 3 hermanos que representan el 10%
- Color Azul Oscuro: Personas que tienen 4 hermanos que representan el 30%
- Color Rosado: Personas que tienen 5 hermanos que representan el 10%
Referencias
Balzarini, M. (2013). Estadística y biometría: ilustraciones del uso e infostat en problemas
de agronomía. Recuperado de
http://bibliotecavirtual.unad.edu.co:2460/lib/unadsp/reader.action?docID=3221775
&query=bioestadistica
Balzarini, M. (2013). Estadística y biometría: ilustraciones del uso e infostat en problemas
de agronomía, p. 257-292. Recuperado de
http://bibliotecavirtual.unad.edu.co:2460/lib/unadsp/reader.action?docID=3221775
&query=bioestadistica
Matus, R., Hernández, M., & García, E. (2010). Estadística. Recuperado de:
http://bibliotecavirtual.unad.edu.co:2460/lib/unadsp/reader.action?ppg=1&docID=
3187261&tm=1519661894239
Mecabot. (2017). El software R, una herramienta para implementar métodos numéricos.
Recuperado de: http://mecabot-ula.org/tutoriales/r-project-metodos-numericos/
Mirás M & Rodríguez E. (20181). Técnicas estadísticas con hoja de cálculo y R. Recuperado
de: www.investigo.biblioteca.uvigo.es/xmlui/handle/11093/970
Saenz J. (2010). Métodos estadísticos con R y R Commander. Recuperado de: https://cran.r-
project.org/doc/contrib/Saez-Castillo-RRCmdrv21.pdf
Deaza D. (2018). OVI Variables cuantitativas. Recuperado de:
http://hdl.handle.net/10596/23236
Posada, H., G.J. 2016. Elementos básicos de estadística descriptiva para el análisis de datos.
Fundación Universitaria Luis Amigó. Recuperado de
http://www.funlam.edu.co/uploads/fondoeditorial/120_Ebook-
elementos_basicos.pdf
Ruiz Soler, M., & López González, E. (2009). El entorno estadístico R: ventajas de su uso
en la docencia y la investigación. (Spanish). Revista Española De Pedagogía, (243),
255-273. Recuperado de
http://bibliotecavirtual.unad.edu.co:2051/login.aspx?direct=true&db=eue&AN=39
259635&lang=es&site=eds-live

Vous aimerez peut-être aussi