Vous êtes sur la page 1sur 11

Preferira estar vagamente en lo correcto

Que precisamente equivocado.


Karl Popper
Introduccin

Los resultados obtenidos por el mtodo de los Mnimos Cuadrados Ordinarios, en un principio,
parecen ser adecuados al obtenerlos minimizando la suma de cuadrados de los errores estimados.
Sin embargo, para que los estimadores estimados resultantes de aplicar MCO tngan las
propiedades deseadas en todo buen estimador, se hace necesario realizar la comprobacin de
ciertas hiptesis que avalan su aplicacin y as poder tener la seguridad que los estimadores
obtenidos son insesgados y ptimos.

Las hiptesis ms importantes, que permiten obtener unos estimadores con las propiedades
deseadas son:
a.- Las relativas a los residuos del modelo
Valor esperado del termino error aleatorio es cero, lo cual garantiza que las variables no
incluidas explcitamente en el modelo y recogidas por el termino aleatorio no afectan
sistemticamente el valor de la variable explicada.
Normalidad
Homocedasticidad
No Autocorrelacin
b.- Las relativas a las variables explicativas del modelo
Las variables X1, X2, X3, ..Xk son linealmente independiente: No multicolinealidad
Exogenidad dbil: Prueba de endogenidad
Exogenidad fuerte
c.- Relativas al modelo:
No hay sesgos de especificacin por omisin de variables relevantes
No hay sesgos de especificacin por inclusin de variables irrelevantes
No hay sesgo de especificacin por forma funcional incorrecta.

1.- Validacin de las hiptesis bsicas del modelo de regresin lineal

1.1 Supuesto de normalidad


Cuando los datos resultan de un proceso de medicin o conteo (variables cuantitativas), es
necesario comprobar antes de cualquier anlisis estadstico, si la variable aleatoria estudiada sigue
el modelo normal de distribucin de probabilidades. En el caso que los datos se ajustan a una
distribucin normal se les puede aplicar los mtodos estadsticos denominados paramtricos. As
se denominan aquellos mtodos cuya aplicacin depende del cumplimiento de algunos supuestos
sobre las propiedades de la poblacin de datos. Estas propiedades se denominan parmetros, de
all el nombre de mtodos paramtricos. Por ejemplo, el uso de muchos de los mtodos de
inferencia estadstica ms comunes (intervalos de confianza, pruebas de hiptesis, correlacin,
regresin y anlisis de varianzas) requieren que las muestras de datos provengan de poblaciones
de valores que se distribuyen normalmente.
Es muy comn que las pruebas estadsticas de estimacin y contraste frecuentemente empleadas
se basan en suponer que se ha obtenido una muestra aleatoria de una distribucin de probabilidad
de tipo normal o de Gauss. Pero en muchas ocasiones esta suposicin no resulta vlida, y en otras
la sospecha de que no sea adecuada no resulta fcil de comprobar, por tratarse de muestras
pequeas. En estos casos disponemos de dos posibles mecanismos: los datos se pueden
transformar de tal manera que sigan una distribucin normal, o bien se puede acudir a pruebas
estadsticas que no se basan en ninguna suposicin en cuanto a la distribucin de probabilidad a
partir de la que fueron obtenidos los datos, y por ello se denominan pruebas no paramtricas
(distribution free).

Sin embargo, cuando se cumplen el supuesto de normalidad, aunque sea en forma aproximada,
los mtodos paramtricos son mucho ms potentes que las pruebas no paramtricas, por lo que a
menudo se recurre al uso de alguna funcin matemtica que transforme los datos de tal forma que
los nuevos valores cumplan con el supuesto requerido.

Una propiedad de la distribucin normal es que cualquier funcin lineal de variables normalmente
distribuidas estar tambin normalmente distribuida.
Dado que los estimadores de MCO son funciones lineales de u, entonces tambin siguen una
distribucin normal.
De esta manera, si se trabaja con muestras de menos de 100 observaciones resulta crucial el
verificar si los errores cumplen, de manera aproximada, una distribucin normal.

Dentro de las pruebas paramtricas, las ms habituales se basan en la distribucin de


probabilidad normal, y al estimar los parmetros del modelo se supone que los datos constituyen
una muestra aleatoria de esa distribucin, por lo que la eleccin del estimador y el clculo de la
precisin de la estimacin, elementos bsicos para construir intervalos de confianza y contrastar
hiptesis, dependen del modelo probabilstico supuesto.

Cuando un procedimiento estadstico es poco sensible a alteraciones en el modelo probabilstico


supuesto, es decir que los resultados obtenidos son aproximadamente vlidos cuando ste vara,
se dice que es un procedimiento robusto.

Las inferencias en cuanto a las medias son en general robustas, por lo que si el tamao de
muestra es grande, los intervalos de confianza y contrastes basados en la t de Student son
aproximadamente vlidos, con independencia de la verdadera distribucin de probabilidad de los
datos; pero si sta distribucin no es normal, los resultados de la estimacin sern poco precisos.
La comprobacin de la normalidad es necesaria, para realizar los test de hiptesis exactos y la
construccin de intervalos de confianza.

Es importante resaltar que para hacer inferencia estadstica necesitamos que se cumpla el
siguiente supuesto: las perturbaciones siguen una distribucin normal; este supuesto es necesario
solamente para llevar a cabo inferencia, no para efectos de estimacin.

Causas de la no Normalidad
- Existencia de valores atpicos
- Distribuciones no normales [formas no simtricas, que no estn centradas en la media por: fallo
de la simetra, mayor masa probabilstica en el centro que la normal (curva leptocrtica) mayor
masa en los extremos que la normal (Curva platicrtica)]
- Existen observaciones heterogneas. En este caso se debe averiguar la causa que origina estas
observaciones: errores en la recogida de datos; el modelo especificado no es correcto porque se
han omitido variables regresoras (por ejemplo, no se ha tenido en cuenta una variable de
clasificacin cuando las observaciones proceden de diferentes poblaciones).
Se debe hacer un estudio de influencia de las observaciones atpicas para averiguar el grado de
influencia en la estimacin del modelo. Si esta influencia es muy grande puede ser conveniente
recurrir a procedimientos de estimacin robusta en el clculo del modelo.
- Existe asimetra en la distribucin. En este caso suele ser conveniente transformar la variable
respuesta (transformacin de Box-Cox). Este problema suele estar relacionado con otros
problemas como falta de linealidad o Heterocedasticidad, la solucin de transformar las
observaciones pueden resolverlos conjuntamente.
- Si la hiptesis de normalidad no se verifica y las soluciones anteriores no son vlidas se pueden
obtener intervalos de confianza de los parmetros por mtodos diferentes de los expuestos en los
que se tiene en cuenta la distribucin especfica de los errores.
Cuando se quieren contrastar las suposiciones del MRLN, siempre se parte del modelo, con alguna
generalizacin, es decir se suponen validas todas las suposiciones excepto la que se quiere
contrastar.
_ En el caso de la normalidad se suponen todos menos la normalidad de las perturbaciones.

Supuestos:
Los errores (e) son independientes e igualmente distribuidas y no dependen de las X
(Independencia, homocedasticidad y Exogenidad)
son estables y estimables (Estabilidad e identificabilidad).
Las X no estn relacionadas entre s y vienen dadas sin error (no colinealidad y
mensurabilidad)

Estadsticos de prueba
Informales:
a.- Grficos de probabilidad normal P-P plots
b.- Grficos de Cuantiles normales Q-Q plots
Formales:
c.- Prueba Chi cuadrada
d.- Prueba de Geary
e.- Prueba de Jarque Bera (JB)
e.- Mtodo de Kolmogorov - Smirnov (K-S)
f.- Contraste de Shapiro - Wilks (S-W)
g.- Prueba de Anderson Darling (A-D)
h.- La prueba Sktest (Skewness-Kurtosis)
PROCEDIMIENTOS PARA VERIFICAR EL AJUSTE A UNA DISTRIBUCIN DE
PROBABILIDAD

PRUEBAS INFORMALES

Grficos q-q plot, normal probability plot

Sesgada a la izquierda sesgada a la derecha simtrica de dos colas


Leptocrtica

Simtrica de dos colas Distribucin normal


Platicrtica

PRUEBAS FORMALES

Jarque, Carlos M., y Bera, Anil K.,(J-B)

Este test contrasta la simetra y la curtsis que bajo el supuesto de normalidad deberan ser 0 y 3
respectivamente. Analiza por consiguiente si la distribucin falla en alguna de las caractersticas
bsicas de la normal, si es simtrica o si tiene diferente peso los valores centrales respecto a los
extremos de la normal.
Se suele hacer una comparacin de cada uno de ellos independientemente y otro test conjunto
mediante el siguiente estadstico:

( )
= [ + ] ;

El test de Jarque-Bera se realiza para contrastar:


_ H0: 1= 2=0, lo que significa simetra y curtsis exactas
_ H1: 10 20 lo que significa que existe curtsis o asimetra
Donde los coeficientes han sido calculados como en los test anteriores.
La consecuencia es que si existe asimetra o curtsis falla la normalidad.
Al contrastarlo conjuntamente exige un fallo mayor de alguna de ellas o de ambas para rechazarse.

Comprobar si el ndice de tasa de cambio real de Colombia 1996.1 2013.4 se distribuye como
una normal. Anexo 1.
H0: La variable ITCR sigue una distribucin normal
H1: La variable ITCR no sigue una distribucin normal

Resumen de clculos realizado con Excel. Tabla Anexa

Criterio de decisin: Dado que el Valor-P del estadstico de prueba es mayor que el nivel de
significacin establecido (0.102586>0.05), se puede inferir que con una confianza del 95% hay
evidencia estadsticamente significativa para decir que el ITCR en Colombia se distribuye como
una normal.
De igual forma, como el estadstico de prueba (4.67723) es inferior que el estadstico crtico (5.991)
se llega a la misma decisin.

Test de normalidad en EViews

9
Series: ITCR
8 Sample 1996Q1 2013Q4
Observations 72
7

6 Mean 103.4124
Median 101.3900
5 Maximum 134.4300
Minimum 84.59000
4 Std. Dev. 13.74651
Skewness 0.474132
3
Kurtosis 2.227372
2
Jarque-Bera 4.488474
1 Probability 0.106008

0
90 100 110 120 130
Fuente: Clculos propios utilizando EViews

S 13,747 m3 1203.4 JBP


S2 188,98 m4 77365,6 4.67723
S3 2597,87 AS 0.46478 ;%
S4 35712,66 (AS)2 0.21602065 5.991
n 72 AP 2.166336 Valor-P
(AP-3)2 0.69499487 0.102586

Criterio de decisin:
Si el estadstico de prueba JBP < JBC no se tiene evidencia estadsticamente significativa para
rechazar HO, en caso contrario se debe rechazar.
Si el Valor-P (JBP) > al NS, no se tiene evidencia estadsticamente significativa para rechazar H O,
en caso contrario se debe rechazar.
La salida del EViews arroj un Valor-P = 0.106008 superior al 0.05, por lo tanto no se tiene
evidencia estadsticamente significativa que nos induzca a rechazar H O.
De igual manera como JB=4.448847 < JB(2; 5%) =5.991, tambin nos esta indicando que no se
tiene evidencia estadsticamente significativa que nos induzca a rechazar H O.

Prueba de KolmogorovSmirnov (K-S)

La prueba de Kolmogorov-Smirnov, es una prueba no paramtrica, y con la modificacin


introducida por Lillierfors, es la ms utilizada y se considera uno de los test ms potentes para
muestra (> 50), aun cuando tiene la particularidad que puede ser aplicada a muestras pequeas.
En este test la Hiptesis nula Ho: es que el conjunto de datos siguen una distribucin normal. Y la
Hiptesis Alternativa H1: es que no sigue una distribucin normal.
Este test se basa en evaluar un estadstico:
Dn = MaxSN (X) F0(X)
SN (X): es la distribucin emprica.
F0 (X): es la distribucin terica, que en este caso es la normal: Z.
Si el valor del estadstico supera un determinado valor, que depende del nivel de significacin con
el que uno quiera rechazar la hiptesis nula, diremos que esa coleccin de datos no se distribuye
segn una distribucin normal.

Este contraste, que es vlido nicamente para variables continuas, compara la funcin de
distribucin (probabilidad acumulada) terica con la observada, y calcula un valor de discrepancia,
representado habitualmente como DN, que corresponde a la discrepancia mxima en valor absoluto
entre la distribucin observada y la distribucin terica, proporcionando asimismo un valor de
probabilidad P, que corresponde, si estamos verificando un ajuste a la distribucin normal, a la
probabilidad de obtener una distribucin que discrepe tanto como la observada si verdaderamente
se hubiera obtenido una muestra aleatoria, de tamao n, de una distribucin normal. Si esa
probabilidad es grande no habr por tanto razones estadsticas para suponer que nuestros datos
no proceden de una distribucin normal, mientras que si es muy pequea, no ser aceptable
suponer ese modelo probabilstico para los datos.

La K.S se convierte en una prueba conservadora (y por lo tanto pierde poder) si la Media y la
Varianza no estn especificadas de antemano, sino que debe ser calculada a partir de los datos de
la muestra.

Zona de aceptacin
Z. Rechazo
EJERCICIO DE APLICACIN DE LA PRUEBA KOLMOGOROV SMIRNOV (K-S)

X: Variable aleatoria que representa el nmero de respuestas correctas para una prueba de
matemticas aplicada el ltimo ao.

La aplicacin de esta prueba en aos anteriores arroj que el nmero de respuestas correctas se
distribuy normalmente con una media de 985 y desviacin estndar 50.

X Rango Sx(X) F0(X) Dn=Sx(X)F0(X)


(ordenados)
852 1 1/16 = 0.0625 0.0039 0.0586
875 2 2/16 = 0.125 0.0139 0.1111
910 3 3/16 = 0.1875 0.0668 0.1207
933 4 4/16 = 0.2500 0.1492 0.1008
957 5 5/16 = 0.3125 0.2877 0.0248
963 6 6/16 = 0.3750 0.3300 0.0450
981 7 7/16 = 0.4375 0.4681 0.0306
998 8 8/16 = 0.5000 0.6026 0.1026
1007 9 9/16 = 0.5625 0.6700 0.1075
1010 10 10/16 = 06225 0.6915 0.0665
1015 11 11/16 = 0.6875 0.7257 0.0382
1018 12 12/16 = 0.7500 0.7454 0.0046
1023 13 13/16 = 0.8125 0.7764 0.0361
1035 14 14/16 = 0.8775 0.8413 0.0337
1048 15 15/16 = 0.9375 0.8962 0.0413
1063 16 16/16 = 1.0000 0.9406 0.0594

Dada la informacin Existe alguna razn para afirmar que se han presentado cambios en la
distribucin de respuestas correctas para la prueba de matemticas?

F0(X) es la funcin de distribucin normal Z con media : =
La variable X debe ser ordenada de menor a mayor.
Rango es el orden de la variable.
Sx(X) es la funcin de distribucin muestral.
Dn es la mxima diferencia encontrada entre Sx(X) y F0(X) : = () 0 ()

Hiptesis a probar H0: F(X) = F0(X) (La variable X se distribuye como una normal).
H1: F(X) F0(X) (La variable X no se distribuye como una normal).

C.D.D. Si La mxima diferencia encontrada (en valor absoluto), D n, que es nuestro estadstico de
prueba, es mayor que el estadstico critico a un nivel de significacin establecido se debe rechazar
la hiptesis nula en favor de la alternativa.

852985
F0(X1=852) = = = 2.66 ( = 2.66) = 0.0039
50
910985
F0(X1=910) = = = 1.5 ( = 1.5) = .
50
1063985
F0(X16=1063) = = = 1.56 ( = 1.56) = 0.09406
50
La mxima diferencia absoluta encontrada DN = 0.1875 0.06681 = 0.1207
El estadstico critico D16(5%) = 0.327 tabla KS
Criterio de decisin: Como 0.1207 < 0.327 se puede afirmar con una confianza del 95% de que no
existe evidencia estadstica suficiente para rechazar la H 0, o lo que es lo mismo, no se detectaron
cambios en el nmero de respuestas correctas de la prueba de matemticas de la ya establecida
N(985; 50).

Ejercicio de aplicacin

DURACIONES DE LAS BATERIAS DE UN AUTOMOVIL

2.2 3.4 2.5 3.3 4.7


4.1 1.6 4.3 3.1 3.8
3.5 3.1 3.4 3.7 3.2
4.5 3.3 3.6 4.4 2.6
3.2 3.8 2.9 3.2 3.9
3.7 3.1 3.3 4.1 3
3 4.7 3.9 1.9 4.2
2.6 3.7 3.1 3.4 3.5

Probar que los datos si se ajustan a una distribucin normal con 3.5 y 0.7

Prueba de ShapiroWilks (S-W)

Desarrollada por Samuel S. Shapiro y Martin B. Wilks en 1965. Aunque esta prueba es menos
conocida es la que se recomienda para contrastar el ajuste de nuestros datos a una distribucin
normal, sobre todo cuando la muestra es pequea (< 50).

Est diseada para detectar desviaciones de la normalidad sin necesidad de que la Media y la
Varianza de la distribucin normal sean especificadas por anticipado.
Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilstico normal el cual permite
adems apreciar el ajuste o desajuste de forma visual:

En escala probabilstica normal se representa en el eje horizontal, para cada valor observado en
nuestros datos, la funcin de distribucin o probabilidad acumulada observada, y en el eje vertical
la prevista por el modelo de distribucin normal. Si el ajuste es bueno, los puntos se deben
distribuir aproximadamente segn una recta a 45.

En cualquier caso siempre es adecuado efectuar una representacin grfica de tipo histograma de
los datos, y comparar el valor de la media y la mediana, as como evaluar el coeficiente de
asimetra y apuntamiento, adems de llevar a cabo una representacin en escala probabilstica de
la distribucin de probabilidad esperada versus observada. El SW es un valor comprendido entre 0
y 1 y entre ms se acerque a 1 mayor es el grado de normalidad de la distribucin. En el grfico de
la distribucin la zona de rechazo estar localizada a la izquierda y por ende la de no rechazo
estar a la derecha.
ZR Zona de no rechazo

0 0.1 0.2 0.3 0.99 1.0

2
Estadstico de prueba: = 2
= Donde D es la deferencia entre los
mayores y los menores valores de la variable, previamente ordenados de mayor a menor, y p
es el factor obtenido de la tabla S.W

C.D.D. :
Se debe rechazar la propuesta de normalidad (H0) de la distribucin cuando el estadstico de
prueba sea menor que el estadstico crtico, SW cal < SW crt. (Pea, D., 2001 pag. 470)
No se debe rechazar la propuesta de normalidad (H0) de la distribucin cuando el estadstico de
prueba sea mayor que el estadstico crtico, SW cal > SW crt
Al utilizar el criterio del Valor-P: Si Valor-P(SW) > N.S se debe rechazar H0 y en el caso contrario
no se debe rechazar, Valor-P(SW) < N.S.

Resumen de la prueba de normalidad para el ITCR en una muestra de 50 datos utilizando Excel.
Tabla anexa.

Hiptesis a probar:

H0: El ITCR de Colombia sigue una distribucin normal.


H1: El ITCR de Colombia no sigue una distribucin normal.
,
2 = 10734,71 = 99,356 2 = 9871,597 = ,= 0.9196
SW(50, 5%) = 0,947
C.D.D.
Como 0.9196 < 0,947 se puede inferir con una confianza del 95% que se tiene evidencia
estadsticamente significativa para decir que el ITCR de Colombia no se distribuye como una
normal.

Posibles soluciones cuando se rechaza la hiptesis de normalidad

Si rechazamos o dudamos de la normalidad de nuestros datos, existen varias soluciones posibles:

Si la distribucin es ms apuntada que la normal (mayor parte de los valores agrupados en torno
de la media y colas ms largas en los extremos), se debe investigar la presencia de
heterogeneidad en los datos y de posibles valores atpicos o errores en los datos. La solucin
puede ser emplear pruebas no paramtricas.

Si la distribucin es unimodal y asimtrica, la solucin ms simple y efectiva suele ser utilizar una
transformacin para convertir los datos en normales.

Cuando la distribucin no es unimodal hay que investigar la presencia de heterogeneidad, ya que


en estos casos la utilizacin de transformaciones no es adecuada y los mtodos no paramtricos
pueden tambin no serlo.

Una alternativa muy interesante a los mtodos paramtricos y a las pruebas no paramtricas
clsicas, la constituye la metodologa de estimacin autosuficiente.

Transformaciones para conseguir datos normales

El grafico de cajas y bigotes es un buen indicador del tipo de transformacin que debemos realizar
a la variable para hacerla normal.
Si la distribucin es ASIMTRICA POSITIVA: es conveniente utilizar races cuadradas o
logaritmos La correccin de la asimetra positiva ser an mayor con la transformacin
logartmica.
Si la distribucin es ASIMTRICA NEGATIVA: es conveniente elevar al cuadrado o al cubo, siendo
la transformacin ms adecuada si elevamos al cubo la variable.
La utilizacin de transformaciones para lograr que los datos se ajusten a una distribucin normal es
en muchas ocasiones la solucin ms natural, ya que existen gran cantidad de parmetros que
tienen una distribucin asimtrica a la derecha, y que se convierten en aproximadamente
simtricas al transformarlas mediante el logaritmo natural.

Tenemos problemas con la transformacin logartmica ln(x) si la variable puede tomar el valor 0,
por lo que en esos casos, o incluso si existen valores muy pequeos, ser adecuado emplear la
transformacin ln(x+1).

Cuando la desviacin tpica de los datos es proporcional a la media o cuando el efecto de los
factores es multiplicativo, en lugar de aditivo, est indicado el uso de la transformacin logartmica.

Otra transformacin posible es , que es aplicable cuando las varianzas son proporcionales a
la media, lo que ocurre a menudo cuando los datos provienen de una distribucin de Poisson
(recuentos).

Otra transformacin habitualmente empleada es 1/ X, que tambin precisa que sumemos una
cantidad a cada valor si existen ceros.

Estas tres transformaciones comprimen los valores altos de los datos y expanden los bajos, en
sentido creciente en el siguiente orden: (la que menos), ln x, 1/x.
Si la concentracin de datos est, en el lado de la derecha y la cola en la izquierda, se puede
utilizar la transformacin x, que comprime la escala para valores pequeos y la expande para
valores altos.

Cuando los datos son proporciones o porcentajes de una distribucin binomial, las diferencias con
una distribucin normal son ms acusadas para valores pequeos o grandes de las proporciones,
utilizndose entonces transformaciones basadas en .

En todos los casos para los clculos estadsticos basados en la teora normal, se utilizarn los
valores transformados, pero despus para la presentacin de los resultados se efectuar la
transformacin inversa para presentarlos en su escala de medida natural.
Transformaciones sugeridas basada en las graficas

Forma de la distribucin Transformacin


Asimtrica positiva Log(X+C)
Asimtrica negativa Log(C-X)
Leptocrtica 1/X
Platicrtica X2

Escalera de las transformaciones:

_Si la distribucin es ASIMTRICA POSITIVA: es conveniente utilizar 1-races cuadradas, 2-


logaritmos La correccin de la asimetra positiva ser an mayor con los logaritmos.

_Si la distribucin es ASIMTRICA NEGATIVA: 1-elevar al cuadrado (X2) o 2-al cubo (X3). La
correccin de los datos ser mayor cuanto mayor es la exponenciacin.

Las transformaciones ms comunes son el logaritmo (ln), la raz cuadrada (SQRT) y potencias
(**potencia deseada)

Pruebas no paramtricas

Se denominan pruebas no paramtricas aquellas que no presuponen una distribucin de


probabilidad para los datos, por ello se conocen tambin como de distribucin libre (distribution
free). En la mayor parte de ellas los resultados estadsticos se derivan nicamente a partir de
procedimientos de ordenacin y recuento, por lo que su base lgica es de fcil comprensin.
Cuando trabajamos con muestras pequeas (n < 10) en las que se desconoce si es vlido suponer
la normalidad de los datos, conviene utilizar pruebas no paramtricas, al menos para corroborar los
resultados obtenidos a partir de la utilizacin de la teora basada en la normal.
En estos casos se emplea como parmetro de centralizacin la mediana, que es aquel punto para
el que el valor de X est el 50% de las veces por debajo y el 50% por encima.

Conviene tener en cuenta que con variables que muestran una distribucin prxima a la
normalidad la aplicacin de las transformaciones puede provocar hacerlas ms asimtricas.
Cuando esto ocurre lo ms conveniente es trabajar con los datos de la variable original.

La prueba de normalidad no es importante cuando la muestra sea lo suficientemente grande. Pero


si la muestra no es grande si se requiere de la normalidad para poder hacer inferencia.

Vous aimerez peut-être aussi