Vous êtes sur la page 1sur 19

Apunte de clases preparado por el profesor Sr.

Rosamel Sez Espinoza para su uso en docencia

1.- Repaso: En el curso Introduccin a la Teora de Decisiones se desarroll la unidad de estimadores puntuales. Recordemos que un estimador es una funcin definida sobre los valores numricos de caractersticas medibles de una muestra. Los estimadores, son estadsticos y sirven para representar a los parmetros, los que a su vez son definidos como funciones definidas sobre los valores numricos de caractersticas medibles de una poblacin. Para que un estimador represente bien a un parmetro, este debe satisfacer algunas propiedades; Insesgamiento, Varianza Mnima, Eficiencia, Consistencia y Suficiencia. Para el estudio de las propiedades, los estimadores son considerados como variables aleatorias, luego debemos pensar que tienen asociada una distribucin de probabilidad, llamada distribucin muestral y, adems debemos pensar en la existencia de los parmetros respectivos. Recuerde que para conocer la distribucin muestral de un estimador, suponemos que se realiza un muestreo repetido y para cada muestra calculamos el valor del estadstico, para de esta forma obtener un conjunto de valores posibles y junto con ello observar la frecuencia de ocurrencia, la que finalmente ser la distribucin de probabilidad. El insesgamiento al igual que varianza mnima son las dos propiedades bsicas deseables de todo estimador. El insegamiento se refiere al centro de la distribucin muestral del estimador. Un estimador se dice insesgado si su distribucin muestral est centrada justo en el valor del parmetro, esto lo anotamos como: E = , donde denota el estimador y denota el parmetro.

sigue la Si suponemos que la distribucin muestral de un estimador distribucin Normal, el insesgamiento lo vemos grficamente reflejado de la siguiente forma:

RO SA ME L

SA EZ

Distribucin Muestral

ES PIN OZ A

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

Si nuevamente suponemos que la distribucin muestral del estimador es la distribucin normal y que adems el estimador es insesgado, la propiedad de varianza minma grficamente se ve reflejada de la siguiente forma:

donde 1 < 2 < 3 .

Algunos resultados bsicos:

A.- Operador suma y Operador Producto

A.1.- El Operador Suma ( ) se define de la siguiente forma:

RO SA ME L

y
i =1

= y1 + y2 + L + yk

A.1.1 Algunas propiedades importante A.1.1.1

= + + L + = k
i =1 k

A.1.1.2

( y + z ) = y + z
i =1 k i i i =1 i i =1 k

A.1.1.3

( a + by ) = ka + b y
i =1
k

A.1.1.4

y = ( y
i =1 j =1 ij i =1

SA EZ
k k i i i =1 i
k i1

+ yi 2 + L + yir ) = yi1 + yi 2 + L + yir


i =1 i =1 i =1

ES PIN OZ A
1

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

A.1.1.5

y = y
i =1 j =1 ij j =1 i =1

ij

A.2 Operador producto

( )
i =1 i

= y1 y2 L yk

B.- Valor esperado, Varianza y Covarianza

B.1 Valor Esperado: Si Y variable aleatoria, su valor esperado corresponde a E [Y ] , el que tambin es denotado mediante Y o simplemente por . B.1.1 Una propiedad: Si Y es variable aleatoria con valor esperado E [Y ] y a , b son constantes entonces: E [ a + bY ] = a + bE [Y ] B.2 Varianza: Si Y variable aleatoria, su varianza corresponde a V [Y ] , el que tambin es denotado mediante 2Y o simplemente por 2 . Recordar que:
2 2 = E (Y Y )

B.2.1 Una propiedad: 2 Si Y es variable aleatoria con varianza Y y a , b son constantes entonces:

2 (a + bY ) = b2 Y2

RO SA ME L

B.3 Covarianza: Sean Y y Z dos variables aleatorias, su covarianza corresponde a Cov(Y,Z), el que tambin es denotado mediante (Y , Z ) . Recordar que:
(Y , Z ) = E (Y y ) ( Z z )

Notas: (1) De la definicin (Y , Y ) = Y2 (2) Si Y y Z son variables aleatorias independientes entonces (Y , Z ) = 0

B.3.1 Una propiedad: Sean Y , Z dos variables aleatorias y sean a , b , c, d constantes entonces: ( a + bY , c + dZ ) = bd (Y , Z )

SA EZ

ES PIN OZ A

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

C.- Funciones de variable aleatorias: Sean Y1 , Y2 ,L , Yn n variables aleatorias. Si consideramos la funcin donde a1 , a2 ,L , an son constantes entonces:

aY
i =1

i i

Si n = 2 C.1.1: E [ a1Y1 + a2Y2 ] = a1E [Y1 ] + a2 E [Y2 ]

2 2 C.2.1 2 ( a1Y1 + a2Y2 ) = a12 2 (Y1 ) + a2 (Y2 ) + 2a1a2 (Y1 , Y2 )

Nota: Si Y1 y Y2 son variables aleatorias independientes entonces:


2 2 i) 2 ( a1Y1 + a2Y2 ) = a12 2 (Y1 ) + a2 (Y2 )

ii) 2 (Y1 + Y2 ) = 2 (Y1 Y2 ) = 2 (Y1 ) + 2 (Y2 )

I)

INTRODUCCIN

RO SA ME L
Tipos de Pronsticos: :

Hoy en da no podemos desconocer la necesidad de la elaboracin de pronsticos, de hecho, es a partir del reconocimiento de su importancia para la planeacin y toma de decisiones en reas de negocio, gobierno, ciencias sociales y militar, que comienzan a desarrollarse tcnicas estadsticas cada vez ms complejas que, junto con la proliferacin de computadoras personales, han permitido utilizar las tcnicas de pronsticos en una gran variedad de empresas e instituciones.

Existen mtodos intuitivos y formales, cuya diferencia principal es la manera en que se obtienen los puntos de referencia para la utilizacin de los pronsticos, tanto en la planeacin como en la toma de decisiones. Es evidente que el enfoque intuitivo es subjetivo, y si bien una persona brillante y con gran experiencia puede obtener buenos resultados en forma subjetiva, aun as es vulnerable a efectos psicolgicos y sesgos a influencias tanto implcitas como de origen externo, en cambio el enfoque

SA EZ

ES PIN OZ A
4

n n C.1: E aiYi = ai E [Yi ] i =1 i =1 n n n C.2: 2 aiYi = ai a j (Yi , Y j ) i =1 i =1 j =1

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

formal implica objetividad, y an cuando lo apliquen personas diferentes, cada uno puede repetir en cierta medida, los resultados obtenidos de manera independiente. Ahora bien, cualquiera sea el tipo de pronstico, el tema de la incertidumbre y el riesgo en la planeacin y en la toma de decisiones, han motivado a utilizar estos mtodos en forma regular con el convencimiento que aunque no se puede asegurar la total exactitud de los modelos de prediccin, ni por muy sofisticado que ellos sean, a trabajar la planeacin y tomar decisiones a un nivel de riesgo controlado. Por ltimo, la precisin de los modelos es uno de los puntos ms importante, de hecho, la precisin es una funcin inversa del horizonte de tiempo. Predicciones que tienden a abarcar un periodo mayor de dos aos tienden a ser muy inexacta, esto es debido a las variaciones inflacionarias y otros factores macroeconmicos imprevistos, tienden a introducir factores adicionales de incertidumbre e inexactitud. En pronsticos a mediano plazo, de tres meses a dos aos, los factores macroeconmicos mayores tienden a ser de menor influencia. Los modelos son representaciones de objetos o situaciones reales y pueden presentarse en varias formas; los modelos icnicos, los modelos analgicos y los modelos matemticos. Los modelos icnicos son rplicas fsicas de objetos reales, ejemplo un modelo a escala de un avin. Los modelos analgicos son modelos fsicos, pero que no tienen la misma apariencia que el objeto modelado, por ejemplo el velocmetro de un automvil puesto que la posicin de la aguja representa la velocidad del automvil. Por ltimo los modelos matemticos son representaciones de un problema por un sistema de smbolos y relaciones o expresiones matemticas. Prediccin (forecasting) basadas en tcnicas de regresin. La tcnica estadstica de regresin se considera como causal o explicatoria, esto es, la prediccin se basa en la posibilidad de medir el efecto de diferentes e importantes variables independientes sobre la variable dependiente a predecir. Las variables independientes tambin se llaman variables predictoras o variables regresoras o variables explicativas y se consideran fijas (estas se denotan como X), en cambio la variable dependiente tambin se conoce con el nombre de variable respuesta o variable observada o variable explicada o variable predicha (se denota por Y). Antes de iniciar todo estudio debemos tener el convencimiento que la relacin a determinar es causal, es decir un cambio en una variable induce a un cambio en la otra. Este anlisis se hace sobre las variables no sobre datos. Por ejemplo, el subgerente de investigacin y desarrollo (IyD) de una gran compaa qumica y de fabricacin de fibras cree que las ganancias anuales de la empresa dependen de la cantidad gastada en IyD. Cree Ud. que las variables IyD y ganancias anuales definen una relacin causal?.
5

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

En efecto, puesto que un mayor gasto en IyD implica acceder a tecnologas de punta, posiblemente diversificar el mercado, capacitacin y esto debera traducirse en incrementar las utilidades. Una vez que se tiene claridad respecto que existe relacin causa-efecto entre las variables X e Y, se procede a la toma de datos para investigar la forma de la relacin. Los conjuntos de datos pueden ser de clases muy variadas: Conjunto de datos de corte transversal: es una muestra compuesta por individuos, familias, empresas, ciudades u otro tipo de unidad recogida en un momento determinado, por ejemplo la tabla a continuacin contiene un conjunto de datos de corte transversal para 300 trabajadores en determinado momento. En esta se muestra el salario por hora en dlares, los aos de educacin, los aos de experiencia laboral, el sexo (1= hombre, 0=mujer) y estado civil (1= casado, 0= no casado) Obs 1 2 . . 300 Salario por hora 3.10 11.20 . . 6.22 Educ 15 22 . . 18 Exper 2 15 . . 22 Sexo 1 0 . . 1 Estado civil 0 1 . . 1

Una caracterstica clave de los datos de corte transversal es que el orden de los datos no tiene importancia para el anlisis. Datos de series de temporales: consiste en observaciones sobre una variable o distintas variables a lo largo del tiempo, ejemplos; los precios de las acciones, la oferta monetaria, el PIB, las tasas anuales de homicidio, etc. Dado que los acontecimientos pasados pueden tener influencia sobre acontecimientos futuros, y los efectos retardados en el comportamiento de los individuos son frecuentes en ciencias sociales, el tiempo es un parmetro importante en los conjuntos de series temporales. En oposicin al orden de los datos de corte transversal, la disposicin cronolgica de las observaciones de una serie temporal si transmite informacin potencial potencialmente importante. Una caracterstica importante de las series temporales que hace que stas sean ms difciles de analizar que los datos de corte transversal es el hecho que rara vez, si no nunca, podemos suponer que las series son temporalmente independientes. Datos fusionados de seccin cruzada: Son conjuntos de datos que tienen caractersticas tanto de datos de corte transversal como de series temporales. Los datos fusionados de seccin cruzada se analizan en forma muy parecida a los datos de corte transversal convencionales, con salvedad de que a menudo necesitamos tomar en cuenta diferencias de las variables a lo largo del
6

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

tiempo. De hecho, adems de aumentar el tamao de la muestra, el objetivo de la fusin de datos de seccin cruzada es a menudo observar tambin cmo una relacin clave ha cambiado con el tiempo. Datos de panel o longitudinales, consisten en series temporales para cada unidad de corte transversal del conjunto de datos. Por ejemplo, suponga que tenemos un registro de datos sobre el salario, la educacin y el historial de empleo de un conjunto de individuos seguidos durante un periodo de diez aos. La caracterstica clave de los datos de panel que los diferencia de los datos fusionados de seccin cruzada es el hecho que se mantiene un registro de las mismas unidades de seccin cruzada (individuos, empresas, comunas, etc.) durante un periodo de tiempo determinado

II)

Captulo 1: Regresin Lineal y Mtodos de Mnimos Cuadrados

El modelo ms simple que relaciona una variable dependiente y con una nica variable independiente cuantitativa x est dada por la ecuacin de la lnea recta (1) y = 0 + 1x donde 0 es la interseccin con el eje y ( valor de y cuando x=0), y 1 es la pendiente de la lnea recta (cambio en y para una unidad de cambio en x). Para una ecuacin dada 0 y 1 son constantes. Una ecuacin de la forma (1) es llamada modelo determinstico puesto que no hay error en la lectura de y, esto es, para un valor dado de la variable independiente x, podemos predecir y exactamente usando la ecuacin determinstica y = 0 + 1x . Aunque los modelos determinsticos son simples de usar, no son realistas en muchas situaciones, puesto que la variable dependiente y puede no ser adecuadamente representada mediante una ecuacin determinstica en una o ms variables cuantitativas independientes. Ejemplo 1: Los datos siguientes corresponden a las ventas semestrales (miles de dlares) y el tamao de la poblacin estudiantil (en miles) que el gerente de comercializacin recopil, para la cadena de 10 restaurantes localizados cerca de los campos universitarios: Ventas Pob. 58 105 2 6 88 8 118 8 117 12 137 157 169 149 202 16 20 20 22 26

Suponiendo que estamos interesados en estimar las ventas semestrales promedio para una poblacin estudiantil dada. Puede el modelo determinstico ser usado en este problema?

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

Lo primero que debemos hacer es identificar cual ser nuestra variable dependiente o variable respuesta y cual ser nuestra variable independiente, en este ejemplo, claramente las ventas es nuestra variable respuesta. Enseguida, debemos tener claridad respecto de la causalidad entre las variables, luego es conveniente representar nuestros datos mediante un diagrama de dispersin, en que, en el eje x o de las abscisas ubicamos los valores de la variable independiente, en el eje y o de las ordenadas ubicamos los valores de la variable dependiente, para luego en el plano ubicar cada par ordenado (x,y), de esta forma nuestra grfica es:
Ventas 250 200 150 100 50 0 0 5 10 15 20 25 30

Figura 1: Diagrama de dispersin para el ejemplo 1 De la figura 1, podemos observar un cierto comportamiento entre la variable tamao de la poblacin y la variable ventas semestrales, a medida que aumenta el tamao de la poblacin aumenta, las ventas tambin aumentan, ms an, vemos un comportamiento con una tendencia lineal creciente entre las dos variables, sin embargo, una lnea recta describe la tendencia de los datos, no pudiendo predecir exactamente las ventas semestrales para un tamao de la poblacin estudiantil dada. Un modelo que permite la posibilidad que la observacin no caiga sobre la lnea recta es el modelo de la forma: y = 0 + 1x + (2) donde es un error aleatorio. Observe que = y (0 + 1x ) , es decir, es la diferencia entre un valor medido u observado y un punto de la lnea 0 + 1x Los supuesto para el error aleatorio son: i) E[ ] = 0 cualquiera sea el valor de x dado. ii) 2 ( ) = 2 cualquiera sea el valor de x dado. iii) ( i , j ) = 0 para x i x j

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

En el modelo dado por (2) las constantes 0 y 1 reciben el nombre de parmetros de regresin y el modelo es lineal tanto en los parmetros de regresin como en la variable independiente. El inters se centra en que los parmetros de regresin se encuentre en grado 1. Por otra parte como 0 y 1 son constantes, el valor esperado de la variable dependiente y, E[y ] , es 0 + 1x , la cual es determinstica. Adems como 0 y 1 son parmetros desconocidos, nunca sabremos la localizacin precisa de la lnea E[y ] = 0 + 1x , por lo que, debemos proceder a estimar estos parmetros usando la informacin contenida en la muestra. Algunos patrones que se pueden observar en un diagrama de dispersin se muestran en las siguientes grficas:
(a) relacin lineal directa (b) Relacin lineal inversa

(c) relacin curvilinea directa

(d) relacin curvilinea inversa

1.1 Medida descriptiva de la asociacin lineal entre x e y en el modelo Una medida para medir la fuerza de la relacin lineal entre dos variables x e y es el coeficiente de correlacin r, que es una medida adimensional. El coeficiente de correlacin lineal puede ser calculado mediante la frmula.

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

r=

x y
i =1 i

nxy

n 2 n x i nx 2 y i2 ny 2 i =1 i =1

Un valor de r tal que r 0,75 se considera adecuado para indicar que existe correlacin lineal entre las variables x e y, sin embargo la siguiente prueba estadstica nos permite tomar una decisin si el valor de r es o no significativo. Ho : = 0 H1 : 0

cuyo estadstico de prueba est dado por

t=

r 1 r2 n2

y regin de rechazo dada por. La hiptesis nula ser rechazada si valor-p= 2P(t > tc) < 0.1 para n-2 g de l, con tc el valor del estadstico de prueba una vez evaluada por los datos.

1.2.- Mtodo de Mnimos Cuadrados para estimar los parmetros de regresin. Para entender el razonamiento en que se basa el mtodo de mnimos cuadrados consideremos el siguiente ejemplo:

Ejemplo 2: Dado los siguientes datos X 1 2 Y 1 1

3 2

4 2

5 4

Dibujar el diagrama de dispersin

10

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

Figura 3: Diagrama de dispersin ejemplo 2

4 3 2 1 0 0 1 2 x 3 4 5 y

En la figura 3 los segmento de lneas verticales representan desviaciones de los puntos respecto de la lnea. Se puede constatar, desplazando una regla dentro de la grfica que es posible encontrar muchas lneas para las cuales la suma de las desviaciones es igual a 0, pero, slo servir aquella para la cual la suma de cuadrados de las desviaciones o errores es mnima, tal suma es llamada suma de cuadrados de los errores y es denotada por SCE. Un procedimiento matemtico usado para encontrar la ecuacin de la recta que minimiza las distancias entre la lnea y los puntos, medidas en la direccin vertical, es el llamado mtodo de los mnimos cuadrados ordinarios (MCO). Si queremos encontrar la lnea mnimos cuadrados para un conjunto de datos, suponemos que tenemos una muestra de n puntos, identificados como los pares (x1 , y1 ) , (x 2 , y 2 ) , ..., (x n , y n ) . El modelo lineal adecuado para representar la respuesta y en trminos de x es y = 0 + 1x + y la lnea de medias es

E[y ] = 0 + 1x . Si denotamos por y a la lnea ajustada que esperamos encontrar, 0 + 1x , as, y 0 y 1 son los entonces y = es un estimador del valor medio de y.
estimadores de los respectivos parmetros 0 y 1 .

0 y La lnea mnimo cuadrados es determinada a partir de las cantidades

que
n

hacen

mnima
2

la

SCE,

donde

SCE = (y i y i)
i =1

0 + 1x i )] . SCE = [y i (
i =1

Del clculo sabemos que estos valores mnimos son obtenidos del sistema de ecuaciones SCE SCE y =0 =0 0 1

11

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

De aqu obtenemos
0 + 1 xi y i = n
n n i =1 n i =1

0 xi + 1 x i2 xi yi =
i =1 i =1 i =1

0 y 1 , se tiene que llamadas ecuaciones normales. Resolviendo para


n

1 =

x y
i =1 n i

nxy
2

x
i =1
n

2 i

nx

0 = y 1x
n

Observe que

x i y i nxy = (x i x )(y i y )
i =1 i =1

x
i =1

2 i

nx = ( x i x ) 2
2 i =1

Para los datos del ejemplo 1 se tiene que:


y = 60 + 5 x

Para los datos del ejemplo 2, se tiene que:


y = 0.1 0.7 x

1.2.1.- Propiedades de los Estimadores Mnimos Cuadrados Un teorema importante, llamado teorema de Gauss-Markov establece que bajo los supuestos dados anteriormente (ver pgina 4) del modelo y = 0 + 1x + , 0 y 1 son insesgados, es decir, E[ 0 ] = 0 y los estimadores mnimos cuadrados 1 ] = 1 , en efecto E[

12

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

1 =

x i y i nxy
i =1 n

(x
i =1 n

x )(y i y )
i

x i2 nx 2
i =1

(x
i =1

x) 2

= Ki yi
i =1

donde

Ki =
observar que i) K i = 0 ii) K i x i = 1
i =1
i =1 n n

xi x

(x
i =1

x)2

De aqu,
n n b 1] = E E[ K y = K E [ y ] = K i (0 + 1x i ) = 1 i i i i i =1 i =1 i =1 Anlogamente se puede probar que 0 ] = 0 . E[

0 + 1x , definimos el i-simo Dada la ecuacin mnimo cuadrada y =

residuo muestral, denotado por ei , como la expresin ei = y i y i . Una de las aplicaciones ms importantes de los residuos es analizar si un modelo es o no apropiado para los datos empleados.

Propiedades 1) 2) 3)

e
i =1 n i =1
n

=0
es mnima
n i

e
i =1 i

2 i

y = y
i =1

4)

x e
i =1

i i

=0

13

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

5)

e y
i =1

i i

=0

6) La lnea de regresin siempre pasa por el punto (x, y ) Veamos algunas de estas propiedades:

1.-

ei = 0 , sabemos que
i =1

i ) = ei = ( y i y
i =1 i =1 n

(y
n i =1

0 1 xi )

= normales.

yi n0 1 xi
i =1

= 0

por la primera de las ecuaciones

3.-

y
i =1

0 + 1 xi = n 0 + 1 xi =
n i =1 n

por la primera de las ecuaciones normales por propiedad de sumatoria por propiedad de sumatoria

0 + 1 xi ) = (
i =1 n

i =1 n

i =1

y
i =1

Las otras propiedades quedan de ejercicio. Hasta ahora, todos los resultados obtenidos han sido independientes de la distribucin de los errores i y de aqu de la distribucin de los y i , sin embargo, si deseamos realizar inferencias respecto de los parmetros 0 y 1 , necesitamos conocer o hacer supuestos acerca de la distribucin de los i . El supuesto estndar es que los trminos de error son independientes e idnticamente distribuidos de acuerdo a la distribucin normal con media 0 y varianza 2 . De esta forma la variable aleatoria y i = 0 + 1x + i , tambin se distribuye normal, con media 0 + 1x y varianza 2 . Conocida la distribucin de probabilidad del modelo podemos aplicar el mtodo de mxima verosimilitud para encontrar los estimadores de 0 , 1 y 2 . La funcin de verosimilitud para una muestra aleatoria y1 , y 2 ,..., y n est dada por:
L 0 , , , 2 =

(2 )

n 2 2

1 exp 2 2

(y
i =1

2 0 1 x i )

14

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

Aplicando logaritmo natural a esta ltima expresin, derivando respecto 0 , 0 , 1 y 2 e igualando a cero, encontramos los estimadores mximo verosmil 2 1 y respectivamente (Probarlo), donde:

1 =

x y
i =1 n i

nxy

x
i =1
n

2 i

nx 2

0 = y 1x
2 =

(y
i =1

y i)

Observar que los estimadores mximo verosmil de 0 y 1 son los mismos estimadores MCO, luego son insesgados y de varianza mnima, en cambio el estimador mximo verosmil de 2 es sesgado. Se puede mostrar que un 2 estimador insesgado de 2 es = CME , denominado cuadrado medio del error, SCE donde CME= . n2 0 y 1 ,son conocidos es Un clculo alternativo del CME cuando CME =
n 1 n 2 n 1 xi y i y i 0 y i n 2 i =1 i =1 i =1

1.3.- Inferencias respecto del parmetro 1 Una de las inferencias de mayor uso respecto del parmetro 1 es la prueba de hiptesis H 0 : 1 = 0 H1 : 1 0 La razn principal de esta prueba es que 1 = 0 indica que no existe asociacin entre x e y. Para probar esta hiptesis, necesitamos primero determinar una medida de discrepancia o estadstico de prueba.

15

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

1 1.3.1.- Distribucin Muestral del Estadstico


1 = K i yi donde K i = Recordar que
i =1 n

xi x

(x
i =1

x)

1 es una , es decir

combinacin lineal de los yi . Para cada valor de x, la variable respuesta y tiene


1 = K i yi se distribuye normal con media 1 y distribucin normal, luego,
i =1 n

1 ) = varianza 2 (

(x
i =1

x)

Por lo general el valor de la varianza 2 es desconocida, y su estimador es = CME , el cual como mencionamos anteriormente es insesgado, as, un 2 2 1 ) es estimador de 2 ( ( 1 ) = S (1 ) , donde
2

1 ) = S 2 (

CME

(x x )
i i =1
2

1 ) es un estimador insesgado de 2 ( 1 ) . Se puede mostrar que S ( El estadstico de prueba o medida de discrepancia para probar la hiptesis H 0 es entonces

T =

1 1 1 ) S (

el cual tiene distribucin t-Student con n-2 grados de libertad. La hiptesis nula ser rechazada si valor-p= 2P(t > tc) < 0.1 para n-2 g de l, con tc el valor del estadstico de prueba una vez evaluada por los datos. 1.3.2 Intervalos de Confianza para 1 Como sabemos la v.a.

T =

1 1 1 ) S (

(1.3.a)

tiene distribucin T-Student con n-2 grados de libertad, luego dado un nivel de confianza del 100(1 )% , siempre es posible encontrar dos valores t 0 y t 0 tales que

16

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

P( t 0 T t 0 ) = 1

(1.3.b)

reemplazando (1.3.a) en (1.3.b) y resolviendo para 1 , se tiene


1 t 0S( 1 ) 1 1 + t 0S( 1)) = 1 P(

As el intervalo de confianza del 100(1- ) para 1 , est dado por


(
1

1) ; 1 + t 0S( 1)) t 0S(

donde t 0 es un valor obtenido de acuerdo a (1.3.b) para n-2 grados de libertad. 1.4 Intervalos de confianza para E y j

[ ]

En la formulacin y anlisis de los modelos lineales, uno de los mayores objetivos es estimar la media para una o ms distribuciones de probabilidad de la variable Y. Sea x j el valor de la variable X para el cual deseamos estimar la respuesta media, la cual como sabemos es denotada por
0 + 1x j . estimador puntual y j , donde y j =

E y j , siendo su respectivo

[ ]

1.4.1 Distribucin muestral de y j Del hecho que i ~ N (0; 2 ) y como consecuencia y j ~ N( 0 + 1x j ; 2 ) , y del hecho que
n 0 + 1x j = 0 + y ;2 ) , donde K i y i x j , entonces y j = j ~ N ( y y j j i =1 2 ( x j x) 2 1 2 =Ey = + n . j = 0 + 1 x j = E y j y y j n 2 ( x i x) i =1 2 Generalmente es desconocida, por lo que el estimador de 2 es y j

y j

[ ]

[ ]

2 = S 2(y y j ) donde
j

2 ( x j x) 1 2 S (y + n CME j) = n 2 ( x i x) i =1

Ahora bien, como

17

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

y j E yj
2 y
j

[ ] ~ N (0;1)

entonces

y j E yj ~ t ( n2 ) S( y j)

[ ]

As un intervalo de confianza del 100(1- ) para E y j , est dado por

[ ]

(y

t 0 S( y j) ; y j + t 0 S( y j ))

donde t 0 es tal que P( t 0 T t 0 ) = 1 para n-2 grados de libertad. 1.5 Intervalo de Prediccin para un valor especfico de Y Aqu es bueno notar una diferencia entre los intervalos de prediccin y los intervalos de confianza. Los intervalos de prediccin se usan para pronosticar un valor especfico de y para un valor dado de x, en cambio, los intervalos de confianza se usan para estimar el valor medio de y para un valor dado de x. Al considerar la prediccin de una nueva observacin y correspondiente a un valor de x, esta nueva observacin debe entenderse como el resultado de una nueva prueba o ensayo independiente de los cuales se obtuvo el modelo lineal. Sea x j el valor de x para el nuevo ensayo o prueba y sea y j la nueva observacin. 0 + 1 x , la cul tiene El estimador de la prediccin y j = j , est dada por y distribucin normal. Para encontrar el intervalo de predicin para y j usamos como cantidad pivote
y j yj S( y j)

el cual tiene distribucin t-Student con n-2 grados de libertad, donde 2 ( x j x) 1 S2 (y CME j ) = 1 + + n n 2 ( x i x) i =1 As, el intervalo de confianza del 100(1 )% para y j est dado por

(y

t 0 S( y j) ; y j + t 0 S( y j ))

donde t 0 es tal que P( t 0 T t 0 ) = 1 para n-2 grados de libertad.


18

Apunte de clases preparado por el profesor Sr. Rosamel Sez Espinoza para su uso en docencia

Ejercicio 1: Una compaa elctrica debe determinar un modelo para predecir la carga de potencia mxima diaria en funcin de la temperatura mxima diaria. Una muestra aleatoria de 25 das arroj los siguientes datos: Temp. ( F) Carga (megawatts) Temp. Carga 106.0 178.2 94 96 95 108 67 88 89 84 90 136.0 131.7 140.7 189.3 96.5 116.4 118.5 113.4 132.0 98 87 76 68 150.1 114.7 100.9 96.3

67 71 100 79 97 101.6 92.5 151.9 106.2 153.2

Temp. Carga

92 100 135.1 143.6

85 111.4

89 116.5

74 103.9

86 105.1

a) Dibujar el diagrama de dispersin. Qu modelo propone ajustar?. b) Ajuste el modelo Carga= 0 + 1 Temp + . c) De acuerdo a los antecedentes, estn la carga y la temperatura asociados linealmente. d) Encuentre un intervalo de confianza del 98% para 1 e) Hacer los siguientes grficos i) e v/s y , donde e = y y ii) e v/s x Qu puede observar de estos grficos?

19

Vous aimerez peut-être aussi