Académique Documents
Professionnel Documents
Culture Documents
Objetivos de aprendizaje
Aplicar estadstica descriptiva a
muestras
Entender el teorema del limite central
y su importancia para describir
poblaciones a partir de muestras
Calcular normal estndar, rea bajo
curva normal e intervalos de confianza
Resumen de temas
Estadstica descriptiva
Medidas de tendencia central
Medidas de dispersin
Estadstica inferencial
Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis
Medidas de tendencia
central: la media
Medidas de tendencia
central: la media
En trminos matemticos, la media
aritmtica es:
X 1 X 2 X 3 ... X n
n
X
i
i 1
n
Medidas de tendencia
central: la media
Atributo interesante de la media
La suma de la diferencia entre cada observacin
y la media es 0
( X 1 x) ( X 2 x) ( X 3 x)... ( X n x) 0
n
(X
i 1
x) 0
Medidas de tendencia
central: la mediana
Es el valor medio de un arreglo ordenado
de datos
Ordenar los datos (ascendente o
descendente)
Encontrar el dato justo en medio de los
dems datos
n 1
posicin de la mediana
Esta definicin
2aplica para un nmero par o impar de observaciones
Medidas de tendencia
central: la mediana
Ejemplo numrico: tenemos los
siguientes precios del suelo para una
ciudad por barrios
Sesgo debido a
observaciones extremas
La mediana no es sensible a
observaciones extremas
Es un indicador que no es sesgado por los
extremos por lo que se recomienda cuando
las variables aleatorias tienen distribuciones
amplias
Distribucin normal
=10
115
Distribucin asimtrica
Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis
Medidas de dispersin
Indican el grado de separacin entre los
datos numricos de una variable aleatoria.
Rango
Varianza
Medidas de dispersin
El rango describe los valores extremos
entre los cuales se encuentra distribuida
una variable
Se calcula restando el valor menor del valor
mayor; para el ejemplo del barrio 1, el rango
Barrio 1 (n=9)
es 8-6 = 2
Medidas de dispersin
La varianza
Evala en qu medida las observaciones
fluctan con respecto a la media
X
n
i 1
n 1
Medidas de dispersin
La desviacin estndar
Extrae la raz cuadrada de la varianza para
de esta manera compensar la elevada al
cuadrado
X
n
i 1
n 1
Medidas de dispersin
La varianza y desviacin estndar;
ejemplo numrico: tenemos los
siguientes precios del suelo para una
ciudad por barrios
29.07
Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis
Introduccin a la estadstica
inferencial
La informacin muestral de tendencia
central y dispersin permite hacer
estimativos de dichos indicadores para la
poblacin
Incluso permite determinar el tamao de
muestras ptimo para alcanzar buenas
predicciones poblacionales
Estadstica inferencial
--conceptos bsicos
Poblacin o marco muestral: grupo sobre
el cual se quieren hacer generalizaciones
Muestra: grupo menor al de la poblacin
que fue seleccionado para ser estudiado
Diseo de muestra: Criterio que se utilizo
para seleccionar las observaciones de la
muestra
Distribucin muestral de
medias de muestras
Muestras (c/u de tamao igual a
3)
Poblacion
Medias muestrales
Media
Frecuencia
Ejemplo de distribucin de
medias de muestras
Valor por m2 de locales comerciales en
cierta zona a ser estimado por un grupo
de estudiantes
Cada estudiante tomar una muestra
aleatoria de locales
Resultados
Persona 1: P1, P2.Pn P1 media1, s1
Persona 2: P1, P2.Pn P2 media2, s2
Media Pi de cada estudiante es parte de la distribucin
muestral de la media
Distribucin de medias es normal
Con menor dispersin que si
La dispersin de la media de medias es menor que la
dispersin de las variables crudas
Cunto menor? Raiz cuadrada de n (n= nmero de estudiantes)
Resultados
Lo anterior es cierto SIN importar
distribucin del precio/m2 de todos los
locales comerciales
# de locales
# de locales
Precio/m2
Precio/m2
Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis
Ejemplo
Utilizar el programa climit para explorar
las implicaciones del teorema central del
limite
Hacer doble click en el cono en esta lmina
(no contiene virus!)
Cenlimit.exe
Notacin
Muestra
x (xbarra) es la media
s es la desviacin estndar de la muestra
n es el tamao de la muestra
Poblacin
es la media de la poblacin
es la desviacin estndar de la poblacin
N es el tamao de la poblacin
Variable proporcional
p= (promedio de proporcin de poblacin)
Error = (p(1-p)/n)
Distribucin normal
Hay infinitas distribuciones normales
(depende de la media, y la dispersin)
Dos ejemplos
50
%
50%-34.13%
=15.87%
-2
-
Xbarra
50
%
50%47.725%
50
%
=2.275%
=2.275%
x2
15.87%
-2
-
Xbarra
=4.55
-2
-
Xbarra
SXbarra =10
Xbarra
115
Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis
Normal estndar
La letra z se designa al valor de cada
observacin en trminos de la desviaciones
estndar de la muestra
Transformacin:
x u
Normal estndar
En el caso anterior del valor 115, su
normal estndar sera 1.5, porque est
a 1.5 desviaciones estndares de la
media
Ejemplo de normal
estndar
Variable
pop_acre
hu_acre
parkacre
roadacre
Obs
Mean
318
318
318
318
6.01
2.51
0.00
0.02
Std.
Dev.
6.36
2.65
0.01
0.01
Min
Max
0
0.02
0
0.00
42.39
20.62
0.04
0.07
Mean
-1.23E-09
-2.20E-10
-2.84E-09
3.21E-09
Std.
Dev.
1
1
1
1
Min
Max
-0.95
-0.94
-0.73
-1.67
5.72
6.84
6.30
3.89
SXbarra =10
Xbarra
115
Tabla Z
Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis
Hiptesis
Bisagra ente problema y estudio emprico
Fundamentada por teora y praxis
Ajustes y mejoras de acuerdo a evidencia
Ejemplos de Hiptesis
Existe una relacin entre regulacin de usos de suelo y
precios, tal que las ciudades mas reguladas presentan
mayores precios de tierra
Existe una relacin entre la localizacin y el precio de la
tierra, tal que los inmuebles mas prximos a centros de
actividad y negocios tienen precios mas elevados que
inmuebles mas distantes
Existe una relacin entre la informalidad y la pobreza,
tal que las ciudades con mayores ndices de pobreza
presentan mayores domicilios informales que ciudades
con menor ndices de pobreza en su poblacin
Prueba de hiptesis
Recolectar informacin para determinar si la
hiptesis es cierta o no
En muchos casos, no estaremos 100% seguros de
que la hiptesis sea cierta (o no), pero tendremos
alta confiabilidad de que lo sea
Formulacin de hiptesis
para inferencia estadstica
Hiptesis nula (H0)
Afirmacin que indica que para la poblacin,
dos variables son iguales
Ejemplo: adquisicin de la
tierra e ideologa poltica
Queremos saber si alcaldes con tintes de izquierda
adquieren tierra para proyectos de vivienda con mtodos
que estn por fuera del mercado de tierra, en comparacin
a alcaldes con tintes de derecha
Sabemos cantidad de tierra adquirida por via administrativa
(expropiada) para todas las ciudades de Colombia
Formulamos el test de hiptesis:
H0: izquierda = derecha
H1: izquierda derecha
Ejemplo: adquisicin de la
tierra e ideologa poltica
Digamos que izquierda = 83.18%
derecha = 22.25%
Como estas medidas son para la
poblacin de ciudades, no hay necesidad
de hacer pruebas de significancia
izquierda > derecha , luego H0 es rechazada
Ejemplo: adquisicin de la
tierra e ideologa poltica
Caso ms usual: dos muestras aleatorias
izquierda = ??
derecha = ?
izquierda = 23.33%
derecha = 83.18%
Ejemplo: adquisicin de la
tierra e ideologa poltica
En el ejemplo anterior
Si no sabemos media en la poblacin, tenemos error
de muestra, y el hecho que las muestras tienen medias
distintas podra ser una coincidencia
La hiptesis es la misma, queremos saber si la media
en las dos poblaciones son diferentes
Hay que incluir informacin no solo sobre la media,
sino sobre la dispersin que existe en la media
muestral porque nos ayuda a saber que tan diferentes
las medias son en realidad
Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis
Estimacin de intervalos de
confianza
Un rango o intervalo de valores entre
los cuales podemos afirmar que est la
media poblacional
Por ejemplo, si sabemos la media
muestral, podemos decir con 95% de
certeza que la media de la poblacin
esta entre el rango de x 1.96 x y x 1.96
x 1.96 x
Intervalos de confianza
Retomando el ejemplo del precio/m 2 de
locales comerciales
Xbarra de precios= promedio de promedios
Error estndar = s/n
Intervalos de confianza
Presentar la inferencia como intervalo
Contiene rango en el que el valor del parmetro
(la media) se encuentra
Probabilidad de que est en ese intervalo a
cierto nivel de confianza
95% nivel de confianza estndar en ciencias sociales
Intervalos de confianza
Valores crticos para poblacin
x 1.96 ErrorEst , x 2.58ErrorEst
x 1.96 , x 2.58
Declarar hechos
Tenemos 95% de confianza que promedio esta
dentro rango dado
5% de los casos, media de la poblacin esta por
fuera del intervalo de confianza del promedio
Intervalos de confianza en
MUESTRAS
x Z ErrorEst .
x Z
s
n
p Z ErrorEst .
p Z
p (1 p )
n
Ejemplo
Considere una distribucion asimetrica, tirada
hacia la derecha (right skewed)
Ejemplo
Presentacin
T de estudiante
William Gosset se dio cuenta que la
distribucin normal no describe muestras
pequeas
Ms probable que valores lejos del promedio
ocurran
Hay que ajustar la distribucin por el tamao
de la muestra
No pudo usar su nombre estudiante
T de estudiante
Como distribucin normal pero con colas
mas gruesas (probables)
Si n , t normal
Ajuste al tamao de la muestra se llama
grados de libertad
T de estudiante
Como distribucin normal pero con colas mas
gruesas (probables)
Si n , t normal
Ajuste al tamao de la muestra se llama
grados de libertad
Mucho grados = bueno; pocos no tan bueno
1 grado de libertad, hay que irse 12 veces la desviacin
estndar para tener 95% de observaciones
df=5, t.05=2.58; df=10, t.05=2.23; df=50, t.05=2.01
Pruebas de hiptesis
Comparar valor por m2 de locales
comerciales en zona con otro valor
Antes construimos intervalo de confianza
para promedio muestral (269k,291k)
Qu tan factible es que el promedio
verdadero en la poblacin de locales sea
255k?
No muy probable
T1
Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis
Pruebas de hiptesis
Usemos nmeros!
255,000 esta a 5.9 desviaciones del
promedio
Cual es la probablidad de que esto ocurra?
Mirar curva de distribucin normal (Tabla Z)
Casi 0
1. Formular hiptesis
Nula nada ocurre (en trminos de parmetros
poblacionales)
= valor
= valor
1- 2 = valor
2. Identificar estadstica a
comparar
La estadstica a comparar: qu tan lejos
est el valor de la muestra del de la
poblacin azar o no?
Prueba de una muestra o de dos?
Empecemos con una:
x
Z
ErrorEst .
x
s
n
p
ErrorEst .
p
p (1 p )
n
3. Valor p
Probabilidad de que la estadstica (t o Z)
sea resultado de azar o no, si la hiptesis
nula es verdad
Una probabilidad bien baja sugiere baja
posibilidad de azar
Usando distribucin (t o Z) con valores
crticos (y para T, dependiendo de grados de
libertad)
4. Conclusin
Si p es cerca a 0, probabilidad de que
sea resultado de azar es baja rechazar
Ho
Si p es cerca a 1, probabilidad que sea
resultado de azar es alta no rechazar
Ho
Sugiero p<0.05
Ejemplo
Valor/m2 locales comerciales en cierta zona
280k, s=85000, n = 400
Un censo mostr que el valor de predios comerciales
es de 268k/m2. Es la diferencia significativa?
Ho: Xbarra estudio = censo
T= (280k-268k)/(85k/ (400) = 2.82; df=?
http://www.socr.ucla.edu/Applets.dir/T-table.html
P~ 0
Rechazar Ho, que son iguales
Ejemplo
Comparacin de precios de predios
residenciales, antes y despus,
TransMilenio
Estrategia de anlisis
Si no hay diferencia entre dos grupos
(antes y despus) en poblacin (Ho) qu
tan probable es que yo encuentre
diferencia en mis (dos) muestras?
Estadstica del test
t= (diferencia en muestra diferencia en
poblacin)/ se (diferencia en muestra)
Estrategia de anlisis
Var(X1+X2)=Var(X1)+Var(X2)+2Cov(X1,X
2)
Si X1, X2 son independientes, Cov = 0
x A xB ( A B )
t
es x A xB
es x A xB es es
2
xA
2
xB
2
xA
nA
2
xB
nB
Ejemplo
= 7.32/2.31 = 3.05
Si no hay diferencia, probabilidad de que
encontremos una de 3.05 por azar es < 0.01
Rechazar hiptesis nula
Objetivos de aprendizaje
el principio pero al final
Aplicar estadstica descriptiva a
muestras
Entender el teorema del limite central
y su importancia para describir
poblaciones a partir de muestras
Calcular normal estndar, rea bajo
curva normal e intervalos de confianza
Ejercicio
Consideren los datos de propiedades
cercanas TransMilenio, recogidos entre el
2001 y el 2006.
Examinar los precios del suelo (price_000)
de propiedades ofrecidas en el 2002 y en el
2006 en la zona de intervencion
Zona_int=1 &
Yr_2002 o yr_2006
Ejercicio
Para cada agno
Media
Mediana
Desv Estandar
Intervalo de confianza de 95% para la media
poblacional
Prueba de hipotesis de que los precios son
diferentes para los dos agnos