Estadística Descriptiva

Estadística I: Estadística Descriptiva La Estadística puede dividirse en dos grandes ramas:
Prof: Mario José Pacheco López Estadística Descriptiva y Estadística Inferencial.

https://sites.google.com/site/wmariojpl
Estadística descriptiva: Es el conjunto de métodos

1. Conceptos básicos usados para la organización y presentación (descripción)
de la información recolectada. La información recolectada
La Estadística se ocupa del manejo de la información puede ser catalogada de dos maneras: Datos Cualitativos
que pueda ser cuantificada. Implica esto la descripción de y Cuantitativos.
conjuntos de datos y la inferencia a partir de la informa-
ción recolectada de un fenómeno de interés. La función
Estadística inferencial: Comprende los métodos y pro-
principal de la estadística abarca: Resumir, Simplificar,
cedimientos para deducir propiedades (hacer inferencias)
Comparar, Relacionar, Proyectar. Entre las tareas que de-
de una población, a partir de una pequeña parte de la mis-
be enfrentar un estudio estadístico están:
ma (muestra).
1. Delimitar con precisión la población de referencia o
el conjunto de datos en estudio, las unidades que de-
ben ser observadas, las características o variables que 2. Medidas de posición y dispersión
serán medidas u observadas.
Suponga que se tiene un conjunto de datos numéricos
2. Estrategias de Observación: Censo, Muestreo, Dise- de la forma x1 , x2 , ..., xn , donde cada xi corresponde al i-
ño de Experimental. ésimo valor de la variable de interés. Las medidas de lo-
calización permiten tener un panorama general de aquella
3. Recolección y Registro de la información. o aquellas características de interés en una población y al
4. Depuración de la información. mismo tiempo sirven como representación del conjunto de
datos.
5. Construcción de Tablas.
6. Análisis Estadístico: 2.1. Medidas de posición

- Producción de resúmenes gráficos y numéricos. Al describir conjuntos de datos, con frecuencia es con-
- Interpretación de resultados. veniente resumir la información con un solo número.
Cuando los datos comprenden toda la población de refe-

rencia, hablamos de un Censo y cuando solo comprome- 2.1.1. Medidas de posición central
ten una parte de ella, hablamos de una muestra. En ambos
Este número (medida de posición) suele situarse hacia
casos es pertinente un análisis Descriptivo. En el segundo
el centro de la distribución de los datos, en cuyo caso se
caso un análisis Inferencial.
denomina medida de tendencia central.
A grandes rasgos podemos decir que una Población es
el conjunto de toda posible información, o de los objetos,
que permite estudiar un fenómeno de interés Media muestral: También conocida como media arit-
Una muestra es un subconjunto de información repre- mética o promedio o simplemente media. La media de un
sentativa de una población. conjunto de observaciones x1 , x2 , ..., xn denotada por x̄ está
Las Variables resultan ser aquellas características de in- dada por:
terés que desean ser medidas sobre los objetos o indivi- 1 n
x̄ = ∑ xi
duos seleccionados. En la mayoría de los casos lo que se n i=1
pretende es estimar, a partir de la información recolectada
En términos físicos la media representa el Centro de gra-
de una muestra, características desconocidas de los obje-
vedad de un conjunto de datos.
tos en dicha población de interés.
Las características desconocidas de una población serán
llamadas parámetros. Las características calculadas a par- Ejemplo: En un estudio, se registró el tiempo (en min)
tir de una muestra son llamadas estadísticas. Una Inferen- que dura la consulta de una muestra de 12 pacientes en una
cia es una generalización obtenida a partir de una muestra clínica, en el área de consulta externa, sección Ortopedia
aleatoria. con un médico en particular. Los datos son los siguientes:
1
16.1 7.5 3.4 5.2 3.8 5.0 4.1 9.6 9.4 19.0 8.3 4.9. La media Cuartiles: son tres valores que divides la serie de
muestral es datos en cuatro partes iguales. Se representan por
C1 (cuartil primero), C2 (cuartil segundo) y C3 (cuartil
1 12 16.1 + 7.5 + · · · + 4.9 tercero)
x̄ = ∑ xi =
12 i=1 12
Quintiles: son cuatro valores que dividen la serie de
96.3
= = 8.025 datos en cinco partes iguales: K1 , K2 , K3 y K4 .
12
Deciles: son nueve valores que dividen la serie de
El tiempo promedio de consulta es entonces de 8.025 mi-
datos en 10 partes iguales: D1 , D2 , ..., D9 .
nutos.
Percentiles: son 99 valores que dividen la serie de
Mediana: La mediana representa aquel valor de la va- datos en 100 partes iguales: P1 , P2 , ..., P99 .
riable (ordenada) que divide los datos en dos partes por- Una expresión general para su cálculo es:
centualmente iguales. Si se quiere hallar el valor de la va-
riable que deja por debajo de sí el 50 % del resto de los va- Q p = xbhc + (h − bhc) xbhc+1 − xbhc
lores de la variable, una expresión general para su cálculo donde h = p (n − 1) + 1 y bhc es el mayor entero no mayor
es: que h.

x̃ = xbhc + (h − bhc) xbhc+1 − xbhc Ejemplo: (continuación) Hallemos los cuartiles 1 y 3.
donde h = 0.5 (n − 1) + 1 y bhc es el mayor entero no ma- Para el cuartil 1: Primero determinamos el valor de h to-
yor que h. mando p = 0.25
h = 0.25 (12 − 1) + 1 = 3.75
Ejemplo: (continuación) Primero determinamos el va- por tanto
lor de h bhc = b3.75c = 3
h = 0.5 (12 − 1) + 1 = 6.5
Luego, el dato ordenado en la posición 3 es x3 = 4.1 y en
por tanto la 4 es x4 = 4.9
bhc = b6.5c = 6 Q0.25 = x3 + (3.75 − 3) (x3+1 − x3 )
Luego, el dato ordenado en la posición 6 es x6 = 5.2 y en = x3 + (0.75) (x4 − x3 )
la 7 es x7 = 7.5 = 4.1 + (0.75) (4.9 − 4.1)
= 4.7
x̃ = x6 + (6.5 − 6) (x6+1 − x6 )
= x6 + (0.5) (x7 − x6 ) Así, el 25 % de los tiempos de atención fue inferior a 4.7
minutos.
= 5.2 + (0.5) (7.5 − 5.2)
Para el cuartil 3: Primero determinamos el valor de h to-
= 6.35 mando p = 0.75
El tiempo mediano de consulta es de 6.35 minutos. El h = 0.75 (12 − 1) + 1 = 9.25

50 % de los tiempos de atención es inferior a 6.35 minutos. por tanto
bhc = b9.25c = 9
2.1.2. Medidas de posición no central Luego, el dato ordenado en la posición 9 es x9 = 9.4 y en
la 10 es x10 = 9.6
Las medidas de posición no central permiten cono-
cer otros puntos característicos de la distribución que no Q0.75 = x9 + (9.25 − 9) (x9+1 − x9 )
son los valores centrales. Entre las medidas de posición = x9 + (0.25) (x10 − x9 )
no central más importantes están los cuantiles. Sabemos = 9.4 + (0.25) (9.6 − 9.4)
que la mediana divide a los datos en dos partes iguales,
también tiene interés estudiar otros parámetros, llamados = 9.45
cuantiles, que dividen los datos otras cantidades. Los más Así, el 75 % de los tiempos de atención fue inferior a 9.45
importantes son los cuartiles, quintiles, deciles y percenti- minutos.
les. El cuartil 2 es la misma mediana.
2
2.2. Medidas de dispersión Ejemplo: (continuación)
Las medidas de dispersión o variabilidad permiten es- 4.97
cv = = 0.619 (61.9 %)
tablecer que tan dispersos están entre si un conjunto de 8.025
datos observados. Algunas de estas medidas se refieren a Los tiempos de atención tienen una variabilidad del
la dispersión respecto a una medida particular de tenden- 61.9 %.
cia central.
Ejemplo: De una población de 155 posibles sitios de
Rango: Es la diferencia entre el máximo valor observa- muestreo alrededor del rio Meuse (Bélgica) se seleccionó
do y el mínimo: R = xn − x1 . una muestra de 25 de estos sitios para medir las concen-
traciones de plomo (ppm) en la capa superficial del sue-
Rango intercuartil: El cual denotaremos IQR, es la di- lo. Las áreas muestreadas son de aproximadamente 15m
ferencia entre C3 y C1 . Permite determinar que tan disper- x 15m. Los valores muestrales fueron: 429, 135, 173, 50,
so está el 50 % de la información más central. 285, 80, 102, 93, 148, 141, 70, 464, 133, 81, 94, 210, 150,
166, 482, 56, 75, 159, 48, 211, 654.
Varianza: La varianza de un conjunto de datos es una Así, el promedio es:
medida de su dispersión que se calcula como
n n 1 25 4689
x̄ = ∑ xi = = 187.56
∑ (xi − x̄)2 ∑ xi2 − nx̄2 25 i=1 25
i=1 i=1
s2 = = La concentración promedio de plomo es de 187.56 ppm.
n−1 n−1
La mediana:
pero tiene el inconveniente de estar en unidades cuadradas
de la variable. h = 0.5 (25 − 1) + 1 = 13
bhc = b13c = 13
Desviación estándar: Es la raíz cuadrada de la Varianza x13 = 141
por tanto tiene las mismas unidades que la variable origi- x14 = 148
nal. Indica la media de las distancias que tienen los datos
respecto de su media aritmética.
x̃ = 141 + (13 − 13) (148 − 141) = 141
Ejemplo: (continuación) Como El 50 % de las muestras tienen concentraciones de plomo

inferiores a 141 ppm.
12
El cuantil 0.9:
∑ xi2 = 16.12 + 7.52 + · · · + 4.92 = 1044.73
i=1 h = 0.9 (25 − 1) + 1 = 22.6
entonces bhc = b22.6c = 22
1044.73 − 12 8.0252 x22 = 429

2
s = = 24.72
12 − 1 x23 = 464
y √
s= 24.72 = 4.97 Q0.9 = 429 + (22.6 − 22) (464 − 429) = 450
La variabilidad promedio de los tiempos de atención es de El 90 % de las muestras tienen concentraciones de plomo
4,97. inferiores a 450 ppm.
La varianza, desviación estándar y CV:
Coeficiente de variación: Es una medida de dispersión 1471503 − 25 187.562

2
invariante ante cambios de escala que se usa para compa- s = = 24668.09
√ 24
rar dispersiones de diferentes conjuntos de datos. Se cal-
s = 24668.09 = 157.06
cula como 157.06
s
cv = cv = = 0.837
x̄ 187.56
y tiene la propiedad de encontrarse entre 0 y 1, por tanto La variabilidad promedio de los contenidos de plomo es
se puede interpretar en términos porcentuales. de 157.06 ppm, esto es del 83.7 %.
3
La covarianza y el coeficiente de correlación La co-
varianza en una medida de variabilidad conjunta entre un
par de variables X y Y medidas sobre un conjunto de n in-
dividuos. En general, si disponemos de muestras de pares
de datos (x1 , y1 ) , . . . , (xn , yn ) se define la covarianza como:
n
∑ xi yi − nx̄ȳ
i=1
sxy =
n−1
El coeficiente de correlación lineal es una medida de
asociación entre las dos variables definido como:
Sxy
rxy =
Sx Sy
con −1 ≤ ρxy ≤ 1 y −1 ≤ rxy ≤ 1.

Considere los siguientes datos de una muestra del tiem-
po de espera entre erupciones en minutos (y) y la duración
de la erupción en minutos (x) del géiser Old Faithful en el
Yellowstone National Park, Wyoming, EE.UU.
y 79 54 74 62 85 55 88 85
x 3.6 1.8 3.3 2.3 4.5 2.9 4.7 3.6
y 51 85 54 84 78 47 83
x 1.9 4.4 1.8 3.9 4.2 1.7 4.7
Para el análisis de regresión calculamos primero
x̄ = 3.287 sx = 1.137
ȳ = 70.93 sy = 15.125
n
∑ xi yi − nx̄ȳ
i=1
sxy =
n−1
3723.3 − 15 (3.287) (70.93)
=
14
= 16.163
sxy 16.163
rxy = =
sx sy (1.137) (15.125)
= 0.9399
Tenemos así que el grado de relación lineal entre tiempo

de espera entre erupciones y la duración de la erupción es
del 93.99 % (alto e indica una relación directa o positiva).

Estadística Descriptiva

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Estadística Descriptiva

Transféré par

Droits d'auteur :

Formats disponibles

Estadística I: Estadística Descriptiva La Estadística puede dividirse en dos grandes ramas:

Prof: Mario José Pacheco López Estadística Descriptiva y Estadística Inferencial.

Estadística descriptiva: Es el conjunto de métodos

6. Análisis Estadístico: 2.1. Medidas de posición

Cuando los datos comprenden toda la población de refe-

El tiempo mediano de consulta es de 6.35 minutos. El h = 0.75 (12 − 1) + 1 = 9.25

Ejemplo: (continuación) Como El 50 % de las muestras tienen concentraciones de plomo

con −1 ≤ ρxy ≤ 1 y −1 ≤ rxy ≤ 1.

Para el análisis de regresión calculamos primero

Tenemos así que el grado de relación lineal entre tiempo

Vous aimerez peut-être aussi