Vous êtes sur la page 1sur 84

Introduccin a inferencia bsica

Mtodos de Anlisis Aplicados a los


Mercados de Suelo en Amrica Latina
Daniel A. Rodrguez, Ph.D.
University of North Carolina, Chapel Hill
danrod@unc.edu
www.planning.unc.edu/rodriguez

Objetivos de aprendizaje
Aplicar estadstica descriptiva a
muestras
Entender el teorema del limite central
y su importancia para describir
poblaciones a partir de muestras
Calcular normal estndar, rea bajo
curva normal e intervalos de confianza

Resumen de temas
Estadstica descriptiva
Medidas de tendencia central
Medidas de dispersin

Estadstica inferencial

Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis

Medidas de tendencia central


Son indicadores que describen la
situacin de tendencia o hacia la que
tienden a aglomerarse las observaciones
de una variable aleatoria
Media
Mediana

Medidas de tendencia
central: la media

Ejemplo numrico: tenemos los siguientes


precios del suelo (por m2) para una
ciudad por barrios

La media es el promedio aritmtico = la


suma de todas las observaciones, dividida
por el nmero de observaciones
6 13 5 15 3 2
7,3
6

Medidas de tendencia
central: la media
En trminos matemticos, la media
aritmtica es:

X 1 X 2 X 3 ... X n
n

X
i
i 1
n

Medidas de tendencia
central: la media
Atributo interesante de la media
La suma de la diferencia entre cada observacin
y la media es 0

( X 1 x) ( X 2 x) ( X 3 x)... ( X n x) 0
n

(X
i 1

x) 0

Medidas de tendencia
central: la mediana
Es el valor medio de un arreglo ordenado
de datos
Ordenar los datos (ascendente o
descendente)
Encontrar el dato justo en medio de los
dems datos

n 1
posicin de la mediana
Esta definicin
2aplica para un nmero par o impar de observaciones

Medidas de tendencia
central: la mediana
Ejemplo numrico: tenemos los
siguientes precios del suelo para una
ciudad por barrios

Hay 6 observaciones. Luego la posicin de la mediana es n+1 / 2 = 3.5.


Quiere decir que la mediana esta entre el valor del dato en la posicin 3 y
el valor del dato en la posicin 4.
Posicin 3: barrio C
Posicin 4: barrio A
Mediana, entre 5 y 6. Es decir: 5.5

Sesgo debido a
observaciones extremas
La mediana no es sensible a
observaciones extremas
Es un indicador que no es sesgado por los
extremos por lo que se recomienda cuando
las variables aleatorias tienen distribuciones
amplias

La media es sensible a observaciones


extremas
Esta definicin aplica para un nmero par o impar de observaciones

Distribucin normal

=10

115

Distribucin asimtrica

Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis

Medidas de dispersin
Indican el grado de separacin entre los
datos numricos de una variable aleatoria.
Rango
Varianza

Medidas de dispersin
El rango describe los valores extremos
entre los cuales se encuentra distribuida
una variable
Se calcula restando el valor menor del valor
mayor; para el ejemplo del barrio 1, el rango
Barrio 1 (n=9)
es 8-6 = 2

Medidas de dispersin
La varianza
Evala en qu medida las observaciones
fluctan con respecto a la media

X
n

i 1

n 1

Medidas de dispersin
La desviacin estndar
Extrae la raz cuadrada de la varianza para
de esta manera compensar la elevada al
cuadrado

X
n

i 1

n 1

Medidas de dispersin
La varianza y desviacin estndar;
ejemplo numrico: tenemos los
siguientes precios del suelo para una
ciudad por barrios

2 7.33 2 3 7.33 2 ..... 15 7.33 2


6 1

29.07

29,07 5,4 Desviacin Estndar

Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis

Introduccin a la estadstica
inferencial
La informacin muestral de tendencia
central y dispersin permite hacer
estimativos de dichos indicadores para la
poblacin
Incluso permite determinar el tamao de
muestras ptimo para alcanzar buenas
predicciones poblacionales

Estadstica inferencial
--conceptos bsicos
Poblacin o marco muestral: grupo sobre
el cual se quieren hacer generalizaciones
Muestra: grupo menor al de la poblacin
que fue seleccionado para ser estudiado
Diseo de muestra: Criterio que se utilizo
para seleccionar las observaciones de la
muestra

Distribucin muestral de
medias de muestras
Muestras (c/u de tamao igual a
3)
Poblacion

Medias muestrales

Media
Frecuencia

Ejemplo de distribucin de
medias de muestras
Valor por m2 de locales comerciales en
cierta zona a ser estimado por un grupo
de estudiantes
Cada estudiante tomar una muestra
aleatoria de locales

Resultados
Persona 1: P1, P2.Pn P1 media1, s1
Persona 2: P1, P2.Pn P2 media2, s2
Media Pi de cada estudiante es parte de la distribucin
muestral de la media
Distribucin de medias es normal
Con menor dispersin que si
La dispersin de la media de medias es menor que la
dispersin de las variables crudas
Cunto menor? Raiz cuadrada de n (n= nmero de estudiantes)

Resultados
Lo anterior es cierto SIN importar
distribucin del precio/m2 de todos los
locales comerciales
# de locales

# de locales

Precio/m2

Precio/m2

Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis

Teorema del Lmite Central


Distribucin de suma (o media) de
variables aleatorias con varianza finita ~
Normal o Gaussiana, cuando n>30
Aleatoria
Distribucin normal

Teorema del Lmite Central


Si tomamos muestras repetidas de un
tamao predefinido de una poblacin
Distribucin de medias ser normal
Media de distribucin muestral del promedio
promedio de poblacin
Xbarra =

Error estndar = desviacin estndar/ n


Si n es grande, error disminuye

Ejemplo
Utilizar el programa climit para explorar
las implicaciones del teorema central del
limite
Hacer doble click en el cono en esta lmina
(no contiene virus!)

Cenlimit.exe

Notacin
Muestra
x (xbarra) es la media
s es la desviacin estndar de la muestra
n es el tamao de la muestra

Poblacin
es la media de la poblacin
es la desviacin estndar de la poblacin
N es el tamao de la poblacin

Distribucin muestral del


promedio
Variable cuantitativa
Xbarra = (promedio de poblacin)
Error = /n

Variable proporcional
p= (promedio de proporcin de poblacin)
Error = (p(1-p)/n)

Distribucin normal
Hay infinitas distribuciones normales
(depende de la media, y la dispersin)
Dos ejemplos

Continuando con el teorema


del lmite central
No solo la media de medias se aproxima
a la media de la poblacin
Sino que sabemos que 68.27% de las
muestras estn entre x y x ; y
95.45% de las muestras estn entre
2 x y 2 x

Continuando con el teorema


del lmite central

Dicho de otro modo:


34.134% de observaciones estn entre la media y +1 desviacin estndar
47.725% de observaciones estn entre la media y +2 desviaciones est

rea bajo la distribucin


normal
50
%

50
%

50%-34.13%
=15.87%
-2

-
Xbarra

rea bajo la distribucin


normal
15.87% x
2=
31.74%

50
%

50%47.725%

50
%

=2.275%
=2.275%
x2

15.87%
-2

-
Xbarra

=4.55
-2

-
Xbarra

rea bajo la distribucin


normal
El rea rayada muestra los
casos en que la muestra
tuvo una media mayor a
115

SXbarra =10

Xbarra

115

Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis

Normal estndar
La letra z se designa al valor de cada
observacin en trminos de la desviaciones
estndar de la muestra
Transformacin:

x u

Nuevos valores tienen promedio 0, y desviacin


estndar 1 muy til

Normal estndar
En el caso anterior del valor 115, su
normal estndar sera 1.5, porque est
a 1.5 desviaciones estndares de la
media

Ejemplo de normal
estndar

Variable
pop_acre
hu_acre
parkacre
roadacre

Obs

Mean

318
318
318
318

6.01
2.51
0.00
0.02

Std.
Dev.
6.36
2.65
0.01
0.01

Min

Max

0
0.02
0
0.00

42.39
20.62
0.04
0.07

Mean
-1.23E-09
-2.20E-10
-2.84E-09
3.21E-09

Std.
Dev.
1
1
1
1

Min

Max

-0.95
-0.94
-0.73
-1.67

5.72
6.84
6.30
3.89

rea bajo la distribucin


normal

La pregunta original sobre el rea a la


derecha de 115
El valor normal estndar
de 115 es 1.5
Cul es el rea a la
derecha de 1.5?
Utilizar una tabla Z

SXbarra =10

Xbarra

115

Tabla Z

La tabla es en Excel. Para acceder a los datos, hacer doble click en la ta


Muestra area entre 0 y la normal estandar

Ejemplo normal estndar


Una muestra tiene un valor de 80
Cual es su valor normal estndar?
(80-100)/10 = - 2.0

Que % de las muestras son mayores que 80?


Utilizando -2.0, ir a la a tabla. Utilizar 2, ya que la
curva es simtrica. El valor es 0.4772. Es decir,
que 0.5 + 0.477 = 97.7% de las muestras seran
mayores que 80, y slo
2.3% serian menores.

Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis

Hiptesis
Bisagra ente problema y estudio emprico
Fundamentada por teora y praxis
Ajustes y mejoras de acuerdo a evidencia

Ejemplos de Hiptesis
Existe una relacin entre regulacin de usos de suelo y
precios, tal que las ciudades mas reguladas presentan
mayores precios de tierra
Existe una relacin entre la localizacin y el precio de la
tierra, tal que los inmuebles mas prximos a centros de
actividad y negocios tienen precios mas elevados que
inmuebles mas distantes
Existe una relacin entre la informalidad y la pobreza,
tal que las ciudades con mayores ndices de pobreza
presentan mayores domicilios informales que ciudades
con menor ndices de pobreza en su poblacin

Prueba de hiptesis
Recolectar informacin para determinar si la
hiptesis es cierta o no
En muchos casos, no estaremos 100% seguros de
que la hiptesis sea cierta (o no), pero tendremos
alta confiabilidad de que lo sea

Formulacin de hiptesis
para inferencia estadstica
Hiptesis nula (H0)
Afirmacin que indica que para la poblacin,
dos variables son iguales

Hiptesis alternativa (H1)


Afirmacin que indica que para la poblacin,
dos variables difieren (>, <, < o >)
Hiptesis de la investigacin

Ejemplo: adquisicin de la
tierra e ideologa poltica
Queremos saber si alcaldes con tintes de izquierda
adquieren tierra para proyectos de vivienda con mtodos
que estn por fuera del mercado de tierra, en comparacin
a alcaldes con tintes de derecha
Sabemos cantidad de tierra adquirida por via administrativa
(expropiada) para todas las ciudades de Colombia
Formulamos el test de hiptesis:
H0: izquierda = derecha
H1: izquierda derecha

Ejemplo: adquisicin de la
tierra e ideologa poltica
Digamos que izquierda = 83.18%

derecha = 22.25%
Como estas medidas son para la
poblacin de ciudades, no hay necesidad
de hacer pruebas de significancia
izquierda > derecha , luego H0 es rechazada

Ejemplo: adquisicin de la
tierra e ideologa poltica
Caso ms usual: dos muestras aleatorias
izquierda = ??
derecha = ?
izquierda = 23.33%

derecha = 83.18%

Ejemplo: adquisicin de la
tierra e ideologa poltica
En el ejemplo anterior
Si no sabemos media en la poblacin, tenemos error
de muestra, y el hecho que las muestras tienen medias
distintas podra ser una coincidencia
La hiptesis es la misma, queremos saber si la media
en las dos poblaciones son diferentes
Hay que incluir informacin no solo sobre la media,
sino sobre la dispersin que existe en la media
muestral porque nos ayuda a saber que tan diferentes
las medias son en realidad

Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis

Estimacin de intervalos de
confianza
Un rango o intervalo de valores entre
los cuales podemos afirmar que est la
media poblacional
Por ejemplo, si sabemos la media
muestral, podemos decir con 95% de
certeza que la media de la poblacin
esta entre el rango de x 1.96 x y x 1.96

x 1.96 x

Intervalos de confianza
Retomando el ejemplo del precio/m 2 de
locales comerciales
Xbarra de precios= promedio de promedios
Error estndar = s/n

Puedo adivinar promedio, usando Xbarra


No contiene informacin sobre el error

Intervalos de confianza
Presentar la inferencia como intervalo
Contiene rango en el que el valor del parmetro
(la media) se encuentra
Probabilidad de que est en ese intervalo a
cierto nivel de confianza
95% nivel de confianza estndar en ciencias sociales

Normalidad del TCL nos ayuda a construir


intervalos a deseados niveles de confianza

Intervalos de confianza
Valores crticos para poblacin
x 1.96 ErrorEst , x 2.58ErrorEst
x 1.96 , x 2.58

Declarar hechos
Tenemos 95% de confianza que promedio esta
dentro rango dado
5% de los casos, media de la poblacin esta por
fuera del intervalo de confianza del promedio

Intervalos de confianza en
MUESTRAS
x Z ErrorEst .
x Z

s
n

p Z ErrorEst .
p Z

p (1 p )
n

Ejemplo
Considere una distribucion asimetrica, tirada
hacia la derecha (right skewed)

La media muestral es 14.46, n=40, y la desviacion


estandar 1.34. Estimar un intervalo de confianza del
95%

Ejemplo

Presentacin

Repaso teorema del limite central


Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis

T de estudiante
William Gosset se dio cuenta que la
distribucin normal no describe muestras
pequeas
Ms probable que valores lejos del promedio
ocurran
Hay que ajustar la distribucin por el tamao
de la muestra
No pudo usar su nombre estudiante

T de estudiante
Como distribucin normal pero con colas
mas gruesas (probables)
Si n , t normal
Ajuste al tamao de la muestra se llama
grados de libertad

T de estudiante
Como distribucin normal pero con colas mas
gruesas (probables)
Si n , t normal
Ajuste al tamao de la muestra se llama
grados de libertad
Mucho grados = bueno; pocos no tan bueno
1 grado de libertad, hay que irse 12 veces la desviacin
estndar para tener 95% de observaciones
df=5, t.05=2.58; df=10, t.05=2.23; df=50, t.05=2.01

Pruebas de hiptesis
Comparar valor por m2 de locales
comerciales en zona con otro valor
Antes construimos intervalo de confianza
para promedio muestral (269k,291k)
Qu tan factible es que el promedio
verdadero en la poblacin de locales sea
255k?
No muy probable
T1

Presentacin
Medidas de tendencia central
Medidas de dispersin
Distribuciones muestrales
Teorema del Limite Central
Normal estndar
Formulacin de hiptesis
Intervalos de confianza
T-de estudiante
Pruebas de hiptesis

Pruebas de hiptesis
Usemos nmeros!
255,000 esta a 5.9 desviaciones del
promedio
Cual es la probablidad de que esto ocurra?
Mirar curva de distribucin normal (Tabla Z)
Casi 0

Pasos para examinar una


hiptesis
1. Formular hiptesis nula (Ho) e hiptesis
alternativa (Ha)
2. Identificar estadstica a comparar
3. Probabilidad de observar promedio de
muestra si Ho es verdad
4. Concluir

1. Formular hiptesis
Nula nada ocurre (en trminos de parmetros
poblacionales)
= valor
= valor
1- 2 = valor

Alternativa lo que nos interesa!


> valor una cola
valor dos colas
1- 2 < valor una cola

2. Identificar estadstica a
comparar
La estadstica a comparar: qu tan lejos
est el valor de la muestra del de la
poblacin azar o no?
Prueba de una muestra o de dos?
Empecemos con una:

x
Z
ErrorEst .
x

s
n

p
ErrorEst .
p
p (1 p )
n

3. Valor p
Probabilidad de que la estadstica (t o Z)
sea resultado de azar o no, si la hiptesis
nula es verdad
Una probabilidad bien baja sugiere baja
posibilidad de azar
Usando distribucin (t o Z) con valores
crticos (y para T, dependiendo de grados de
libertad)

4. Conclusin
Si p es cerca a 0, probabilidad de que
sea resultado de azar es baja rechazar
Ho
Si p es cerca a 1, probabilidad que sea
resultado de azar es alta no rechazar
Ho
Sugiero p<0.05

Ejemplo
Valor/m2 locales comerciales en cierta zona
280k, s=85000, n = 400
Un censo mostr que el valor de predios comerciales
es de 268k/m2. Es la diferencia significativa?
Ho: Xbarra estudio = censo
T= (280k-268k)/(85k/ (400) = 2.82; df=?
http://www.socr.ucla.edu/Applets.dir/T-table.html
P~ 0
Rechazar Ho, que son iguales

Comparar dos muestras


Frecuente en investigacin evaluar
intervenciones
Aumento de precios
Ingresos
Tiempos de viaje
Calidad del aire

Todo permanece igual en prueba de


hiptesis, menos estadstica a comparar
T2

Ejemplo
Comparacin de precios de predios
residenciales, antes y despus,
TransMilenio

Estrategia de anlisis
Si no hay diferencia entre dos grupos
(antes y despus) en poblacin (Ho) qu
tan probable es que yo encuentre
diferencia en mis (dos) muestras?
Estadstica del test
t= (diferencia en muestra diferencia en
poblacin)/ se (diferencia en muestra)

Estrategia de anlisis
Var(X1+X2)=Var(X1)+Var(X2)+2Cov(X1,X
2)
Si X1, X2 son independientes, Cov = 0

x A xB ( A B )
t
es x A xB

es x A xB es es
2
xA

2
xB

2
xA

nA

2
xB

nB

Ejemplo

= 7.32/2.31 = 3.05
Si no hay diferencia, probabilidad de que
encontremos una de 3.05 por azar es < 0.01
Rechazar hiptesis nula

Objetivos de aprendizaje
el principio pero al final
Aplicar estadstica descriptiva a
muestras
Entender el teorema del limite central
y su importancia para describir
poblaciones a partir de muestras
Calcular normal estndar, rea bajo
curva normal e intervalos de confianza

Ejercicio
Consideren los datos de propiedades
cercanas TransMilenio, recogidos entre el
2001 y el 2006.
Examinar los precios del suelo (price_000)
de propiedades ofrecidas en el 2002 y en el
2006 en la zona de intervencion
Zona_int=1 &
Yr_2002 o yr_2006

Ejercicio
Para cada agno
Media
Mediana
Desv Estandar
Intervalo de confianza de 95% para la media
poblacional
Prueba de hipotesis de que los precios son
diferentes para los dos agnos

Vous aimerez peut-être aussi