Vous êtes sur la page 1sur 35

ANLISIS DE LOS DATOS

ESTADSTICA DESCRIPTIVA
1. Medidas de tendencia central
2. Medidas de dispersin
3. Deteccin de observaciones atpicas
4. Medidas de asociacin de dos variables



MEDIDAS DE TENDENCIA CENTRAL
1. Media
2. Moda
3. Mediana
4. Percentil
5. Cuartil



MEDIA

MODA
La moda es el valor que se repite con mayor frecuencia. En caso de
que haya dos valores que se repitan ms que los dems con la misma
frecuencia se tendra una distribucin de datos bimodal.
Ejemplo: Las edades promedio de un grupo de 6 estudiantes son:
18, 19, 20, 22, 22, 25.

El valor que ms se repite es 22, corresponde a la moda.





PERCENTIL (p)
El percentil p es el valor tal que por lo menos el p por ciento de las
observaciones son menores o iguales que este valor y por lo menos el
(1-p) por ciento de las observaciones son mayores o iguales que este
valor.
Clculo:
a) se ordenan los datos de menor a mayor.
b) Se calcula el indica i = p x n
c) Si i no es un nmero entero, debe redondearse por encima. Si i es
un nmero entero, el percentil p es el promedio de los valores en las
posiciones i e i+1.








PERCENTIL (p)
Ejemplo: Las edades de un grupo de 6 estudiantes son: 18, 19, 20, 22, 22, 25.
Calcular el percentil 75.
a) Se ordenan los datos de menor
a mayor.
X
1
= 18, X
2
= 19, X
3
= 20, X
4
= 22, X
5
= 22, X
6
= 25

a) Se calcula el indica i = p*n i = 0,75*6 = 4,5
a) Si i no es un nmero entero,
debe aproximarse por encima.
Si i es un nmero entero, el
percentil p es el promedio de los
valores en las posiciones i e i+1.
i = 4,5 5 no es un nmero entero, se
aproxima por encima
El percentil 75 corresponde a la posicin 5:
X
5
= 22 aos
CUARTIL (Q)
El cuartil 1 (Q
1
) corresponde al percentil 25
El cuartil 2 (Q
2
) corresponde al percentil 50
El cuartil 3 (Q
3
) corresponde al percentil 75

Ejemplo: Las edades de un grupo de 6 estudiantes son:
18, 19, 20, 22, 22, 25. Hallar el Q
1,
Q
2 y
Q
3
X
1
= 18, X
2
= 19, X
3
= 20, X
4
= 22, X
5
= 22, X
6
= 25








i = 0,25 * 6 = 1,5 i = 1,5 2 Q
1
= X
2
= 19 aos
i = 0,5 * 6 = 3 Q
2
= (X
3
+ X
4
)/2 Q
2
= (20+22)/2 = 21 aos
i = 0,75 * 6 = 4,5 i = 4,5 5 Q
3
= X
5
= 22 aos
MEDIDAS DE DISPERSIN
O DE VARIABILIDAD
1. Rango
2. Rango intercuartlico
3. Varianza
4. Desviacin Estndar
5. Coeficiente de variacin



RANGO
El rango es el mayor valor de la variable menos el menor valor. El rango
es muy sensible a los valores extremos.
Ejemplo: Las edades de un grupo de 6 estudiantes son:
18, 19, 20, 22, 22, 25. Hallar el rango:
Rango = 25 18 = 7 aos




RANGO INTERCUARTILICO (IQR)
El rango intercuartlico (IQR) es la diferencia entre el cuartil 3 (Q
3
) y el
cuartil 1 (Q
1
). El rango intercuartlico (IQR) es el rango en que se
encuentra el 50% central de los datos. No es afectado por los valores
extremos.

Ejemplo: Las edades de un grupo de 6 estudiantes son:
18, 19, 20, 22, 22, 25. Hallar el IQR:

X
1
= 18, X
2
= 19, X
3
= 20, X
4
= 22, X
5
= 22, X
6
= 25



IQR = Q
3
Q
1
= 22 19 = 3 aos




i = 0,25 x 6 = 1,5 i = 1,5 2 Q
1
= X
2
= 19 aos
i = 0,75 x 6 = 4,5 i = 4,5 5 Q
3
= X
5
= 22 aos

DESVIACIN ESTNDAR (S)

DETECCIN DE OBSERVACIONES
ATPICAS
1. Diagrama de caja



DIAGRAMA DE CAJA
Diagrama que se utiliza para descartar datos atpicos. Para construir el
diagrama se necesita determinar:
Q
1
Q
2
Q
3
IQR
Lmite superior = Q
3
+ 1,5xIQR
Lmite inferior = Q
1
- 1,5xIQR
X mayor
X menor







DIAGRAMA DE CAJA
Ejemplo: Las edades de un grupo de 6 estudiantes son:
18, 19, 20, 22, 22, 25. Hacer el diagrama de caja respectivo

Q
1
= 19
Q
2
= 21

Q
3
= 22

IQR = 3
Lmite superior = Q
3
+ 1,5xIQR = 22 + 1,5x3 = 25,5
Lmite inferior = Q
1
- 1,5xIQR = 19 1,5x3 = 14,5
X mayor = 25
X menor = 18







DIAGRAMA DE CAJA
13
15
17
19
21
23
25
27
Edad
Lmite superior = 25,5
Mximo = 25



Q
1
= 22

Q
2
= 21



Q
3
= 19

Mnimo = 18




Lmite inferior = 14,5

MEDIDAS DE LA ASOCIACIN ENTRE
DOS VARIABLES
1. Covarianza
2. Coeficiente de correlacin


4 6 11 3 16
50 50 40 60 30
COVARIANZA
n
1 4 50 -4 4 -16
2 6 50 -2 4 -8
3 11 40 3 -6 -18
4 3 60 -5 14 -70
5 16 30 8 -16 -128
Ejemplo: Dadas las siguientes son cinco observaciones de dos variables,
calcular la covarianza




4 6 11 3 16
50 50 40 60 30

El coeficiente de correlacin de Pearson toma valores desde -1 hasta +1. Los


valores cercanos a +1 o a -1 corresponden a una relacin lineal fuerte. Entre
ms cercano a cero sea el valor de la correlacin, ms dbil es la relacin
lineal.


n
1 4 50 -4 4 -16
2 6 50 -2 4 -8
3 11 40 3 -6 -18
4 3 60 -5 14 -70
5 16 30 8 -16 -128
Ejemplo: Dadas las siguientes son cinco observaciones de dos variables,
calcular el coeficiente de correlacin de Pearson:




4 6 11 3 16
50 50 40 60 30
ESTADSTICA INFERENCIAL
1. Estimadores puntuales
2. Teora del lmite central
3. Estimacin por intervalos
4. Prueba de hiptesis para la media
5. Test de independencia chi cuadrado



ESTIMADORES PUNTUALES
Los estadsticos muestrales son estimadores puntuales de los parmetros
poblacionales.
Estadstico
muestral
Parmetro
poblacional
Media
Varianza
Desviacin estndar
Covarianza
Correlacin
Proporcin
TEOREMA DEL LMITE CENTRAL

ESTIMACIN POR INTERVALOS


Nivel de confianza 75% 80% 85% 90% 95% 97,5% 99%
1,15 1,28 1,44 1,65 1,96 2,24 2,58
ESTIMACIN POR INTERVALOS

P.H. de dos colas P.H. de cola superior P.H. de cola inferior


Hiptesis nula
Hiptesis alternativa
Criterio de rechazo H
0

PRUEBA DE HIPTESIS
Ejemplo: Se toma una muestra aleatoria de 30 focos, la cual resulta tener una duracin
promedio de 1.014 horas y una desviacin estndar de 25 horas. Se necesita probar la
hiptesis de que la duracin promedio de una bombilla es mayor de 1.000 horas con un
nivel de significancia del 5%.

Procedimiento:


PRUEBA DE HIPTESIS
Una tabla de contingencia es una tabla con r filas que corresponden a los niveles de una
variable X y k columnas que corresponden a los niveles de la variable Y, y por dentro tiene los
datos correspondientes a la tabulacin cruzada de las dos variables. La prueba chi
cuadrado de independencia sirve para medir la independencia de dos variables entre s.

Para este prueba la hiptesis nula es que las variables son independientes y la hiptesis
alternativa es que las variables no son independientes.

Ejemplo: Se aplica una encuesta de consumo de caf orgnico a un muestra de 100
personas con los siguientes resultados. Demostrar con un nivel de significancia del 5% que el
consumo de caf orgnico es independiente del sexo.


PRUEBA CHI CUADRADO DE
INDEPENDENCIA
Sexo
Consumo de
caf orgnico
Total general
No Si
Femenino 18 17 35
Masculino 24 41 65
Total general 42 58 100
I. Planteamiento de las hiptesis:
H
0
: El consumo de caf orgnico es independiente del sexo de la persona.
H
1
: El consumo de caf orgnico no es independiente del sexo de la persona.
II. Se determinan las frecuencias esperadas a partir de las frecuencias observadas.
PRUEBA CHI CUADRADO DE
INDEPENDENCIA
Sexo
Consumo de
caf orgnico
Total general
No Si
Femenino 18 17 35
Masculino 24 41 65
Total general 42 58 100
Sexo
Consumo de
caf orgnico
Probabilidades
marginales
No Si
Femenino 0,18 0,17 0,35
Masculino 0,24 0,41 0,65
Probabilidades
marginales
0,42 0,58 1
Sexo
Consumo de
caf orgnico
Total
general
No Si
Femenino = 0,42*0,35*100 = 15 = 0,58*0,35*100 = 20 35
Masculino

= 0,42*0,65*100 = 27

= 0,58*0,65*100 = 38
65
Total general 42 58 100
Frecuencias
observadas
Probabilidades
conjuntas y
marginales
Frecuencias
esperadas
PRUEBA CHI CUADRADO DE
INDEPENDENCIA
Consumo de
caf orgnico
Total general
No Si
Femenino 1,05
Masculino 0,57
Total general 0,93 0,69

Vous aimerez peut-être aussi