Vous êtes sur la page 1sur 64

UNIVERSIDAD NACIONAL DE SAN AGUSTÍN

FACULTAD DE CIENCIAS NATURALES Y FORMALES

ESCUELA PROFESIONAL DE MATEMÁTICA

MODELOS LINEALES GENERALIZADOS

Tesis presentada por:


Bachiller Bisset Marilyn
Gonzales Loayza.

Para optar el Título


Profesional de:
Licenciada en
Matemáticas.

AREQUIPA – PERÚ
2017
Índice general

Agradecimientos 1

Resumen 2

Introducción 3

1. ESTADÍSTICO SUFICIENTE MINIMAL Y FAMILIAS EXPO-


NENCIALES 5
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Propiedades de un Buen Estimador Puntual . . . . . . . . . . . . . . 5
1.2.1. Estimador Insesgado . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2. Estimador Consistente . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3. Estimador Eficiente . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.4. Estimador Suficiente . . . . . . . . . . . . . . . . . . . . . . . 10
1.3. Estadístico Minimal Suficiente . . . . . . . . . . . . . . . . . . . . . . 18
1.4. Familias Exponenciales de Distribuciones . . . . . . . . . . . . . . . . 26

2. MODELOS LINEALES GENERALIZADOS 33


2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2. Regresión Lineal Múltiple . . . . . . . . . . . . . . . . . . . . . . . . 34


2.3. Estimación de los Parámetros del Modelo Lineal Múltiple . . . . . . 37

2.4. Modelo Lineal Generalizado . . . . . . . . . . . . . . . . . . . . . . . 41


2.4.1. Componente Aleatorio . . . . . . . . . . . . . . . . . . . . . . 42

1
2.4.2. Componente Sistemática . . . . . . . . . . . . . . . . . . . . . 43

2.4.3. Función de Link . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.5. Modelos Lineales Generalizados para Datos Binarios . . . . . . . . . . 45

2.6. Estimación de Parámetros en un modelo de Regresión Logística . . . 46

3. APLICACIÓN DEL MODELO LOGÍSTICO 49


3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.2. Dos Aplicaciones de Modelos Lineales Generalizados . . . . . . . . . 50

3.2.1. Producción de Cobb-Douglas . . . . . . . . . . . . . . . . . . 50


3.2.2. El Problema de los Ronquidos . . . . . . . . . . . . . . . . . . 54

Bibliografía 58

2
AGRADECIMIENTOS
A Dios, por bendecirme en todo momento de mi vida.

Quiero agradecer de manera muy especial a toda mi familia, por todo el apoyo
y la con…anza que depositan en mí, pues son el pilar de mi vida, gracias por estar conmigo
en los momentos felices y difíciles, gracias por sus enseñanzas que son invaluables para
mí, gracias por el ejemplo que han contribuido positivamente a mi vida profesional
y por los ánimos para salir adelante, mis agradecimientos a mis padres Rocío,
Jesús y mi hermano Anthony por estar siempre conmigo, gracias por todo.

A mi Asesor que me orientó, dándome consejos e instrucciones necesarias para


poder desarrollar mi tesis.

1
RESUMEN
En modelos lineales se estudia que el error  del modelo tenga media 0 y sea
homocedástica, además que cumpla con la normalidad a fin de que el modelo sea
utilizable, pero en muchos casos esta hipótesis no es satisfecha, porque el modelo
puede ser heterocedástica.

Para resolver este inconveniente, se puede aplicar lo que se llama la transfor-


mación de la variable respuesta o utilizar la técnica de mínimos cuadrados pon-
derados. Sin embargo, existe en la teoría estadística denominado Modelos Lineales
Generalizados que uni…ca modelos de regresión lineal y no lineal, que también per-
mite incorporar distribuciones de respuesta no normales, con la condición que la variable
respuesta sea miembro de la familia exponencial.

2
INTRODUCCIÓN

Los Modelos de Regresión Lineal Simple o Múltiple, estudian la relación estocás-


tica cuantitativa entre una variable de interés y un conjunto de variables explicativas.
Estos modelos son muy utilizados para analizar datos multifactoriales y su estudio
conforma un área de investigación clásica dentro de la disciplina de la Estadística
desde hace muchos años. Su atractivo y utilidad general son el resultado del proceso
conceptualmente lógico de usar una ecuación de interés (la respuesta) y un conjunto
de variables predictivas relacionadas. El análisis de regresión tiene también interés
teórico, por los conceptos matemáticos que se usa y por una teoría estadística bien
desarrollada. Para usar bien el modelo de regresión lineal se requiere apreciar tanto la
teoría como los problemas prácticos que se suelen presentar cuando se emplea esta
técnica con datos del mundo real.

Los modelos lineales (regresión ANOVA, ANCOVA), se basan en los siguientes


supuestos:
1. Los errores se distribuyen normalmente
2. La varianza es constante
3. La variable respuesta se relaciona linealmente con la(s) variable(s) indepen-
diente(s).

Sin embargo, en muchas ocasiones nos encontramos con que uno o varios de estos
supuestos no se cumplen. Por ejemplo, es muy común en ecología que a medida que
aumenta la media de la muestra, aumenta también su varianza, o en todo caso, hay
problemas que pueden ser tratados mediante modelo binomiales y su varianza de-
pende de la probabilidad de ocurrencia, o sea, la población ya no es homocedástica,
en esos casos, una alternativa a la transformación de la variable respuesta y a la

3
falta de normalidad es el uso de los modelos lineales generalizados (GLM) de las
siglas en inglés Generalized Linear Models que son una extensión de los modelos
lineales que permiten utilizar distribuciones no normales de los errores (binomiales,
Poisson, gamma, etc.) y varianza no constante. Por lo que, el objetivo principal del
presente trabajo de tesis, es estudiar el modelo lineal generalizado con sus compo-
nentes de aleatoriedad, sistematicidad y función de enlace, estimación respectiva de
parámetros y su aplicación.
Teniendo como hipótesis: que la falta de normalidad, homocedasticidad y la no
linealidad de los datos, para esos casos es el uso de los modelos lineales generalizados.

Para tal fin, el trabajo se ha estructurado de la siguiente manera:


En el Capítulo I se desarrolla las propiedades de un buen estimador puntual,
estimador minimal suficiente y familias exponenciales de distribuciones.

En el capítulo II se estudia regresión lineal múltiple, estimación de los parámetros


del modelo lineal múltiple, modelo lineal generalizado: componente aleatorio, com-
ponente sistemático y función de enlace o link, continuado con modelos lineales
generalizados para datos binarios, fi nalmente se estudia estimación de parámetros
en un modelo de regresión logística.

En el Capítulo III se incluye dos aplicaciones del modelo logístico sobre: Producción
de Cobb-Douglas y el problema de ronquidos. Dichas aplicaciones son asistidas con
soporte informático del lenguaje R en su versión 3.1.0.

4
Capítulo 1

ESTADÍSTICO SUFICIENTE
MINIMAL Y FAMILIAS
EXPONENCIALES

1.1. Introducción
En la Estadística Inferencial se estudia que un buen estimador puntual goza de las
propiedades tales como: insesgado, consistente, eficiente y suficiente. Un estimador es
un estadístico, que se define como una función de las observaciones que conforman la
muestra. Por lo que, la idea principal de buscar un estimador a partir de la muestra
de tamaño , es para representar al parámetro poblacional.

1.2. Propiedades de un Buen Estimador Puntual


La estimación de un parámetro puede adoptar la forma de un sólo punto, es
decir, la estimación del único valor del parámetro de la población, o en la forma
de un intervalo, esto es, la estimación que incluye un intervalo de valores posibles
en la que se considera que está comprendido el valor verdadero del parámetro de la
población. El primero se denomina estimación puntual y el segundo estimación por
intervalos.

5
Para definir un estimador puntual, tomamos una variable aleatoria  con
función de distribución  (𝜃), donde 𝜃 denota al parámetro desconocido de la
población. Sea 1  2       una muestra aleatoria de tamaño  extraída de
esta población, la función definida por

𝜃̂= t(1  2       )

se llama estimador puntual.


Supongamos que tenemos dos estimadores 𝜃̂1 y 𝜃̂2 del mismo parámetro

poblacional 𝜃, por lo que nos preguntamos cuál de los estimadores será mejor. En
realidad, el verdadero valor de 𝜃, nunca se conoce, lo único que podemos hacer es;
tratar de encontrar algún criterio para decidir cuál de ellos es mejor estimador de
tal manera que cumpla con: insesgabilidad, consistencia, eficiencia y suficiencia.

1.2.1. Estimador Insesgado

Sea 1  2       una muestra aleatoria extraída de una población con función


de densidad  (𝜃). Decimos que

𝜃̂= t(1  2       )

es un estimador insesgado si

h i
 𝜃̂ =𝜃 8 𝜃̂
Ejemplo 1.1 Sea 1  2       una muestra aleatoria extraída de una
población normal  (𝜇 𝜎2 ). El estadístico 𝑋̅
es un estimador insesgado.

En efecto:
Sabemos que

6
1.2.2. Estimador Consistente

En general, un estimador puntual no es idéntico al parámetro que se estima; esto


es debido a la presencia del error de muestreo que es dado por

 =𝜃̂ − 𝜃

Sin embargo, esperemos que un buen estimador tenga su valor muy cercano
al valor verdadero del parámetro o por lo menos tenga una alta probabilidad de
acercarse. O sea, si dado una sucesión de estimadores

de un parámetro 𝜃 es consistente si:

Ejemplo 1.2 Sea 1  2       una muestra aleatoria extraída de una


población  (𝜇 𝜎2 ). El estadístico

7
es un estimador consistente de 𝜎2 .

En efecto:
i) Sabemos que

luego

por lo que

de modo que

ii) Tomamos varianza en ambos lado

8
   2 = 0

sabemos que

luego


por lo tanto

1.2.3. Estimador Eficiente

Para definir lo que es estimador eficiente, tomemos una muestra aleatoria de


tamaño  con 1  2       de una población con función de densidad  (𝜃).
Sean 𝜃̂1 y 𝜃̂2 dos estimadores insesgados del mismo parámetro 𝜃. Diremos que


𝜃̂1 es más eficiente que 𝜃̂2 si

 [^𝜃̂1 ]   [^𝜃̂2]

9
Ejemplo 1.3 Sea 1  2       una muestra aleatoria de tamaño  de una
población  (𝜇 𝜎2 ), donde
𝜃̂1 = 𝑋̅ ^𝜃̂2 =  

demostraremos que ^𝜃̂1 es más eficiente que 𝜃̂2 .

En efecto:
Sabemos que

porque la población es normal. Por otro lado, se sabe que

de modo que


se concluye que 𝑋 es el estimador más eficiente que  .

1.2.4. Estimador Suficiente

Sea 1  2       una muestra aleatoria de una población con función de


densidad  ( 𝜃) y sea

 : R ! R
un estadístico definido por

 = (1  2       )

Esta estadística condensa la muestra aleatoria 1  2       en una variable


aleatoria simple  . Se recurre a tal condensación desde que podemos trabajar
10
10
mejor con cantidades unidimensionales que con cantidades  dimensionales. Para
tal efecto; supongamos que:

Φ= f(1  2       ) es una variable aleatoria 8  = 1 2      g

un espacio muestral de observaciones, esto es, Φ es el conjunto de vectores 

dimensionales cuyas componentes son variables aleatorias. Entonces

 : Φ R! R

definida por

 = (1  2       ) = 0 2  R
Esta de…nición induce una partición del espacio Φ por la propia definición del
estadístico, como veremos en el siguiente ejemplo:

Ejemplo 1.4 Sea 1  2  3 una muestra aleatoria extraída de una población


Bernoulli (1 ). Hallamos la partición inducida por la estadística

En efecto:
Como  ~ (1 ), entonces tenemos

11
11
Luego el espacio muestral de observaciones correspondiente a la muestra
aleatoria esta dado por

Φ = f(0 0 0) (0 0 1) (0 1 0) (1 0 0) (0 1 1) (1 0 1) (1 1 0) (1 1 1)g

La estadística

definida en Φ toma los valores

0 13 23 1

respectivamente. Entonces la partición inducida por la aplicación  está


formada por los siguientes sub-conjuntos y tenemos también sus respectivos
valores de la aplicación:

Gráficamente.

12
12
Así, si usamos la estadística

 1 +  2 + 3
 = (1  2 3 ) =
3

tenemos solamente 4 valores diferentes de los que debemos preocuparnos en lugar


de 8 puntos diferentes de Φ.

Definición 1.1 Sea 1  2       una muestra aleatoria extraída de una población


con función de densidad  ( 𝜃), el

 = (1  2       )

es una estadística suficiente para Φ si la distribución condicional de

 [(1  2       ) = (1  2       ) = (1  2       )]

es independiente de 𝜃, 8 𝜃 2 𝛩, donde 𝛩 es el espacio de parámetros.

13
13
Ejemplo 1.5 Sea 1  2       una muestra aleatoria extraída de una
población de Poisson  ( ). Definimos

 es una estadística suficiente para  .

En efecto:
Tenemos la distribución condicional

 [1 = 1  2 = 2       =    = ]
 [(1  2       ) = ] =
 [ = ]

 [(1  2       ) = ] =  [1 = 1  2 = 2       =  ]


 [ = ]

siempre que
1 + 2 +    +  = 

 [1 = 1 ] [2 = 2 ]     [ =  ]


 [ = ]
por cálculo de probabilidades sabemos que


entonces

luego

14
14
por tanto

es una estadística suficiente para .


El siguiente teorema es conocido como teorema de factorización, propuesto por
Fischer y Nyman.

Teorema 1.1 Sea 1  2       una muestra aleatoria extraída de una población


con función de densidad de probabilidad  ( 𝜃). La estadística  = (1  2       )
2 R es suficiente para 𝜃 si y sólo si, existen funciones  y  tal que la función
de cuantía conjunta de 1  2       se puede factorizar como sigue:

(1  2       ;𝜃) = ((1  2       )𝜃)(1  2       )

donde ( 𝜃) es una función que depende solamente de 𝜃 y de la muestra a través


del estadístico (1  2       ) y (1  2       ) es no negativa y no depende de
𝜃.

Demostración. )) Supongamos que el estadístico  = (1  2       ) =  es


suficiente para  𝜃. Entonces

 [(1  2       ) = (1  2       ) = (1  2       )] = (1  2       ; )

es independiente de 𝜃. Luego

por la ley de la multiplicidad de probabilidades tenemos

(1  2       ;𝜃) =  [(1  2       ) = (1  2       ) = (1  2       )] [ = ]

= (1  2       ; ) [ = ;𝜃]

= ((1  2       )𝜃)(1  2       )

() Ahora, supongamos que existen funciones  y  tal que

(1  2       ;𝜃) = ((1  2       )𝜃)(1  2       )


15
15
por la ley de la distribución total

 2 hipótesis
por      ) = ;  ] =

luego



simplificando el factor común

es independiente de 𝜃. Por tanto  = (1  2       ) es una estadística suficiente


para 𝜃.
Ejemplo 1.6 Sea una muestra aleatoria 1  2       extraída de la población
Bernoulli (1 ). Utilizando el teorema de factorización que el estadístico

es suficiente para el parámetro .

16
16
En efecto:
La función de cuantía conjunta de la muestra y por muestreo independiente será

donde

para

es un estadístico suficiente para . Por tanto, el número de éxitos es un estadístico


suficiente para el parámetro  (probabilidad de éxito en una prueba de Bernoulli).

Ejemplo 1.7 Sea 1  2       una muestra aleatoria de una población


 (𝜇 1). Hallamos una estadística suficiente para 𝜇.
En efecto:
La función de densidad de probabilidad de la distribución  (𝜇 1) es

luego la densidad conjunto de la muestra aleatoria 1  2       es





17
17
 

 

donde

con

que es una estadística suficiente para 𝜇.

1.3. Estadístico Minimal Suficiente

Una vez obtenido el estimador ^𝜃̂ =  = (1  2       ) de un parámetro


poblacional 𝜃 podemos estar interesados en el parámetro de posición del estimador
^𝜃̂.

Una medida natural sería considerar el error muestral dado por



pero esta medida es insatisfactoria, por las siguientes razones:

i) La medida depende de los valores desconocidos de 𝜃.

18
18
ii) La medida es aleatoria y por tanto, no puede ser tratado como una función
de 𝜃.
Sin embargo, podemos aprovechar la definición de  para definir el error cuadráti-
co medio (ECM).

En general, si  = (1  2       ) es un estimador de la función (𝜃), entonces


ECM de  es dado por

por otro lado

pues ( ) - 𝜃  es constante y [ −( )] = 0. Por tanto

  ( ) =  ( ) + (( ))2 (1)

Ejemplo 1.8 Sea 1  2       una muestra aleatoria de una población


 (𝜇𝜎2). Consideremos los estimadores de máximo verosimilitud de 𝜇 y 𝜎2

a) Hallamos   (1 )  (1 )


b) Hallamos   (2 ) y (2 )
En efecto:
a) Sabemos que

19
19

luego

b) Sabemos que


luego

para hallar ECM calculamos

20
20
Definición 1.2 Un estimador  = (1  2       ) de 𝜃 es mejor que un esti-
mador  = (1  2       ) de  𝜃 si:

Definición 1.3 Sea 1  2       una muestra aleatoria de tamaño . Un es-


timador  * =t * (1  2       ) de 𝜃 es un estimador no sesgado (insesgado)
uniformemente de mínima varianza (ENSUMV) o estimador óptimo si:

En la asignatura de Inferencia Estadística se estudia que, la propiedad de inses-


gamiento no es invariante bajo transformaciones funcionales, es decir, 𝜃̂ puede ser

una estimador insesgado de 𝜃, pero (^𝜃̂) puede ser un estimador sesgado de (𝜃).
La esperanza condicional definida por

se observa, conforme  varía sobre todos los posibles valores de  , se obtiene una
función de  por eso, [ ] es una variable aleatoria.
El siguiente teorema se necesita para demostrar el teorema de Rao-Blackwell.

Teorema 1.2 i) Sean  y  variables aleatorias tal que [j j]  1. Entonces


 [[  ]] ≤ [ ].
La igualdad se cumple cuando  = [  ] con probabilidad 1.
ii) Sean  y  variables aleatorias tal que  [ ]  1.
Entonces  [[  ]]   [ ].

Teorema 1.3 (Rao-Blackwell) Sea 1  2       una muestra aleatoria extraída


de una población con función de distribución  (𝜃).
21
21
Supongamos que  = ( 1  2       ) es una estadística su…ciente para 𝜃 y 
= ( 1  2       ) un estimador cualquiera de 𝜃 tal que [jj]  1. Sea además
 * = [ ]. Entonces [( *−𝜃)2 ; 𝜃] ≤ [( −𝜃)2 ; 𝜃] 8 𝜃 2 𝛩. Demostración.
Por (1) de la página 19 sabemos que:

  [] = [( −𝜃)2 ; 𝜃] =  [] + [()]2

pero

() = []−𝜃 = [[ ]]−𝜃 = [ *]−𝜃 = [ *]

por el teorema 1.2 parte i), se tiene

[(−𝜃)2 ;𝜃] =  [; 𝜃] + [( *)]2 ≥  [ *; 𝜃] + [( *)]2

por tanto

[( *−𝜃)2  𝜃] =  [ *] + [( *)]2 ≤ [( −𝜃)2 ; 𝜃]

8 𝜃 2 Θ. Y la igualdad se cumple cuando  * = .


El teorema de Rao-Blackwell nos dice que un estimador  * de mínima varianza
es aquel que es función de la estadística su…ciente  = (1  2       ); esto es
 = [ ] =  ( ).

Definición 1.4 Sea 1  2       una muestra aleatoria extraída de una población


con función de distribución  (;𝜃), donde 𝜃 2 Θ ; y sea  = (1  2       )
una estadística. La estadística  es completa si

[( ); 𝜃] = 0

8 𝜃 2 Θ, implica que ( ) = 0, 8 𝜃 2 Θ y para toda función  definida en el rango


de .

Ejemplo 1.9 Sea 1  2       una muestra aleatoria extraída de una



P
población Poisson  (;𝜃), 𝜃 0. Probamos que la estadística  = 
es suficiente y completa.

22
22
En efecto:

La función de densidad de la distribución de Poisson es

luego

donde

por tanto

es una estadística suficiente para 𝜃, según el teorema de factorización de la


página 15.
Ahora supongamos que existe una función  que depende solamente de 

23
23
tal que

[(); 𝜃] = 0 8 𝜃 0
como

entonces

1

Así, tenemos

una serie de potencias en 𝜃 es idénticamente cero, si solo si todos sus coeficientes


son cero. Entonces () = 0, para  = 1 2   .

Ejemplo 1.10 Sea 1  2       una muestra aleatoria extraída de una


población uniforme  (0 𝜃).
Probamos que la estadística  =  = 
(1  2       ) es completa.
En efecto:
La función de distribución de probabilidad del estadístico

 = 

es

24
24
luego

supongamos que existe una función  tal que

de donde

derivando ambos lados con respecto a 𝜃, tenemos

Así logramos tener que  =  es un estadística completa.

Definición 1.5 Sean dos muestras aleatorias 1  2       y 1  2       extraídas


de una población con función de distribución  (;𝜃) y  (;𝜃).  = (1  2       )
es un estadístico suficiente minimal si dado otro estadístico  = (1  2       ),
tal que el cociente de su verosimilitud



25
25
Ejemplo 1.11 Consideremos dos muestra aleatorias 1  2       de la
P
población de Bernoulli ( 1). Que el estadístico de…nido por  =1  es un

estadístico minimal suficiente.


En efecto:
Sea

 ~ ( 1) ) () =  (1 − )1 -    = 0 1


Supongamos que tenemos dos muestras aleatorias 1  2       y 1  2      

de modo que el cociente de sus funciones de verosimilitud es

siempre que

en lo cual se observa que el resultado es 1, y no depende del parámetro𝜃 =.


P
Luego =1  es un estadístico minimal suficiente.

1.4. Familias Exponenciales de Distribuciones


Existe una clase o familia de distribuciones en la que todos los parámetros de las
distribuciones que la integran tienen estadísticas suficientes. Este grupo de distribu-
ciones recibe el nombre de familia exponencial de distribuciones y como veremos

26
26
será bastante fácil de obtener estadísticos su…cientes del parámetro con familia ex-
ponencial.

Definición 1.6 Sea  (;𝜃) una función de distribución dependiendo de un único


parámetro.  pertenece a la familia exponencial si su función de densidad (o función
de cuantía) puede expresarse así:

 (;𝜃) = f( 𝜃)() + ( 𝜃) +()g

donde:
( 𝜃)  ( 𝜃) son funciones reales de 𝜃 y
()  () son funciones reales de  .

Ejemplo 1.12 En la población de Poisson encontramos las funciones ( 𝜃)


( 𝜃) ()  ().
En efecto:
Sea  ~  (;𝜃)  𝜃 0, entonces

esto es equivalente a

de modo que

( 𝜃) = ln 𝜃   ( 𝜃) =−𝜃 () =   () = − ln !

Esto nos permite afirmar que las distribuciones de Poisson son una familia
exponencial de distribuciones.

Ahora, si consideremos una muestra aleatoria 1  2       extraída de una


población con función de distribución dada  (), un conjunto de funciones de
cuantía o funciones de densidades según sea el caso, discreto o continuo, es una

27
27
familia exponencial uniparamétrica si la función de cuantía o densidad conjunta es
de la forma

 (1  2       ; 𝜃) = f( 𝜃)(1  2       ) + ( 𝜃) + (1  2       )g

Ejemplo 1.13 En la población Exponencial encontramos las funciones ( 𝜃)


( 𝜃) ()  ().
En efecto:
Sea  ~ ( 𝜃)  𝜃 0, entonces

esto es equivalente a

de modo que

(𝜃) = −𝜃 ( 𝜃) = ln 𝜃 () =   () = 0

Esto nos permite afirmar que las distribuciones Exponenciales son una familia
exponencial de distribuciones.

Ejemplo 1.14 En la población Binomial encontramos las funciones (𝜃)

( 𝜃) ()  ()


En efecto:
Sabemos que la distribución Binomial tiene dos parámetros   . Para lo cual,
 ~ ( 𝜃), donde 𝜃=  es probabilidad de éxito en un ensayo de Bernoulli

28
28
y  representa el número de ensayos.
Entonces

esto es equivalente a



de modo que

Esto nos permite afirmar que las distribuciones Binomiales son una familia
exponencial de distribuciones.

Ejemplo 1.15 En la población Normal con 𝜎2 = 1 encontramos las funciones


(𝜃) (𝜃) ()  ().
En efecto:
Para 𝜎2 = 1, o sea  ~  (𝜇 1) y

de modo que

29
29
Esto nos permite afirmar que la distribución  (𝜇, 1) es una familia exponencial
de distribuciones.
Para visualizar mejor la familia exponencial de distribuciones uniparamétricas,
presentaremos en una tabla las funciones (𝜃) ( 𝜃) ()  ().

Tabla 11 : Parámetros de la Familia Exponencial

En el caso de distribuciones de  parámetros 𝜃, la definición 1.6 se generaliza


de la manera siguiente:

Ejemplo 1.16 En la población Normal con parámetros 𝜇 y 𝜎2 ,


encontramos las funciones (𝜃1  𝜃2 ) (𝜃1  𝜃2 )(1  2       ),(1  2       ).
En efecto:
Sabemos que la distribución Normal tiene dos parámetros 𝜇 y 𝜎2 , para lo cual,
 ~  (𝜇 𝜎2 ), donde 𝜇 es la media poblacional y 𝜎2 es la varianza poblacional.
Entonces

30
30
esto es equivalente a

de donde se observa que

como podemos notar la distribución normal  (𝜇𝜎2 ) es una familia exponencial.


Ahora, supongamos que tenemos una muestra aleatoria 1  2       extraída
de la población  (𝜇 𝜎2). Entonces

luego



31
31
por lo tanto

es una estadística suficiente para 𝜃= (𝜃1  𝜃2 ) = (𝜇𝜎2 ).

32
32
Capítulo 2

MODELOS LINEALES
GENERALIZADOS

2.1. Introducción

Los modelos lineales (regresión, ANOVA o ANCOVA), se basan en los siguientes


supuestos: los errores se distribuyen normalmente, la varianza es constante y la
variable respuesta se relaciona linealmente con las variables independientes. Pero,
existen muchas ocasiones en la cual encontramos con que uno o varios de estos
supuestos no se cumplen, en estos casos, el problema se puede llegar a resolver me- diante
la transformación de la variable respuesta, por ejemplo tomando logaritmos. Sin
embargo, estas transformaciones no siempre consiguen corregir la falta de nor- malidad,
la heterocedasticidad o la no linealidad de los datos, en esos casos, una alternativa a la
transformación de la variable respuesta y a la falta de normalidad es el uso de los
modelos lineales generalizados (MLG) que son una extensión de los modelos lineales
que permiten utilizar distribuciones no normales de los errores (binomiales, Poisson,
gamma, etc.).

33
33
2.2. Regresión Lineal Múltiple
Los Modelos de Regresión estudian la relación estocástica cuantitativa entre una
variable de interés y un conjunto de variables explicativas. Sea  la variable
de interés, variable repuesta o dependiente y sean 1  2        las variables
explicativas o regresoras. La formulación matemática de este modelo es la siguiente:

 = [1  2       ] + 

donde  es el error de observación debido a las variables no controladas.

En el modelo de regresión lineal general se supone que la función de regresión

[1  2       ]

es lineal. Por tanto, la expresión matemática del modelo de regresión lineal general
es

 = 0 + 11 + 22 +    +   + 

El primer objetivo en el estudio de este modelo es el estimar los parámetros del


mismo

0   1       

ya que, los parámetros miden la intensidad media de los efectos de las variables
explicativas sobre la variable a explicar y se obtienen al tomar las derivadas parciales
de la variable explicada respecto a cada una de las variables explicativas:

y el objetivo es encontrar la función de distribución del error  a partir de una


muestra de  observaciones, que tendrá la forma

; 1  2         = 1 2     


34
34
de modo que:

 = 0 + 11 + 2 2 +    +   +    = 1 2     

donde  es error aleatorio o perturbación de la observación i-ésima.

El tratamiento más adecuado del modelo de regresión lineal múltiple es mediante


el análisis matricial, para lo cual primero se tiene

esto es equivalente a:

si

 =   +  = [ ] + 

donde

En el modelo lineal múltiple se supone las siguientes hipótesis:


1. La función de regresión es lineal,

[ 1  2       ] = 0 + 1 1 + 2 2 +    +   ;  = 1 2     

35
35
o, equivalentemente,

[] = 0  = 1 2     

2. La varianza es constante (homocedasticidad),

 [ 1  2       ] = 𝜎2   = 1 2     

ya que

 [ 1  2       ] =  [0 + 1 1 + 2 2 +    +   ] +  []


2
𝜎 = 0 +  []
2
𝜎 =  []

o, equivalentemente,

 [] = 𝜎2   = 1 2     

3. La distribución es normal,

 1  2       ~  (0 + 11 + 2 2 +    +    𝜎2 )  = 1 2     

o, equivalentemente,

 ~  (0 𝜎2 )  = 1 2     

4. Las observaciones  son independientes (bajo normalidad, esto equivale a que


la

 (   ) = 0   ≠


esta hipótesis implica que los errores  son independientes dos a dos lo que,
bajo normalidad, equivale a

 (   ) = 0   ≠

36
36
5. Debemos tener    + 1. En caso contrario no se dispondría de información

37
37
suficiente para estimar los parámetros del modelo.

6. Las variables regresoras 1  2       son linealmente independientes. Estos

resultados de hipótesis de modelos lineales múltiples se pueden resumir en


una tabla.
Tabla 21: Resumen de Condiciones de Linealidad
En base a la variable de error " En base a la variable respuesta Y
con i = 1 2     n con i = 1 2     n
 [ 1  2       ] es igual a
 [] = 0
0 + 1 1 +    +  
  [] = 𝜎2   [ 1  2       ] = 𝜎2
Homocedasticidad Homocedasticidad
Independencia:  (   ) = Independencia de las observaciones.
0 Los  son independientes
Los  son independientes
 1  2       con distribución
 ~  (0 𝜎2 )
 (0 + 11 +    +    𝜎2 )
Normalidad
Normalidad
  +1   +1
Las variables regresoras son linealmente Las variables regresoras son linealmente
independientes independientes

2.3. Estimación de los Parámetros del Modelo Lineal

Múltiple

Sea 
^ un estimador del vector de parámetros . El vector de predicciones es

^ =  
^

el vector de residuos se obtiene como

 =  − ^

38
38
el estimador por mínimos cuadrados 
^ se obtiene minimizando la suma de los

residuos al cuadrado. Esto es, se minimiza la siguiente función de  + 1 variables:

derivando respecto a 
^
e igualando a cero, se obtienen las ecuaciones de regresión

(^ ) = 0 () −2   + 2   
^=0
  ^
()   =   

de donde se deduce el siguiente estimador por mínimos cuadrados

debe tenerse en cuenta que para calcular este estimador es necesario que la matriz
   sea invertible. Esto está garantizado por la hipótesis 6 del modelo.

La matriz    es una matriz ( + 1) × ( + 1) cuya expresión es la siguiente:

y    es una matriz ( + 1) × 1 que viene dado por:

39
39
Ejemplo 2.1 Consideremos el modelo lineal múltiple

 [ ] =  

donde  = (1  2       ) es un −vector de  variables aleatorias, con


 () = 𝜎2   = 1 2     ;  (   ) = 0  ≠   es una matriz  × 
de contantes f i jos y  es un vector de parámetros desconocidos. Asumiendo
^ y (−  ^ ) (−  
que  es una variable normal. Que  ^ ) son pares de
estadísticos minimales suficientes.
En efecto:

Tenemos que  tiene la distribución normal. Entonces su función de verosimilitud


es

ahora

40
40
pero

(−  )  (1−) + (1− )   (−  ) = 0


si y sólo si

(−  ) (  ) (1− ) + (1−)   (−  ) = 0

[  (−  )] (1−) + (1−)   (− ) = 0

ya que, utilizando (   ) 1    se tiene:

donde  es la matriz identidad y el estimador 


^ es obtenido mediante el

método de mínimos cuadrados. Teniendo presente que    


^ =   y

retomando el (∗) se tiene:

si   son dos realizaciones del vector variables aleatorias  , entonces

esta proporción no depende de , ya que los dos últimos sumando en el


exponente es igual cero y si 
^ () = 
^ () así 
^ es un estadístico suficiente

minimal para  y de la misma forma también

es un estadístico minimal para 𝜎2 . Por lo tanto, el par de estadísticos

40
40
es suficiente minimal para (𝜎2 ).

41
41
2.4. Modelo Lineal Generalizado
En primer lugar vamos a presentar que existen poblaciones heterocedásticas, o
sea, poblaciones de varianzas no constantes. Por ejemplo, en una población Binomial,
donde la variable respuesta  se define por:

asumamos que la

 [ = 1] =  2 [0 1]  = 1 2     

entonces

 [ = 0] = 1− 

para esta población, la esperanza matemática y la varianza se define como sigue

[] = 1 + 0(1− ) = 

Tanto la media y la varianza depende de , esto sugiere que la varianza no es


constante en la población binomial (o sea, no es homocedástica), lo que significa que el
modelo lineal múltiple no es aplicable para este caso, así aparecen otros modelos,
específicamente los modelos lineales generalizados (MLG).

Definición 2.1 Los modelos lineales generalizados son una extensión de los modelos
lineales, que permiten modelar en poblaciones heterocedásticas mediante tres com-
ponentes básicos: Componente aleatorio, componente sistemático y función de link
(función de enlace).

42
42
2.4.1. Componente Aleatorio

Identifica la variable respuesta y su distribución de probabilidad, para lo cual


consiste en tomar observaciones 1  2       . En muchos casos, estas observaciones
son binarias y se identi…can como éxito o fracaso. De modo más general podemos
decir, que cada  indicaría el número de éxitos entre todos los ensayos y se
modelaría como una distribución binomial.

En otros casos cada observación es un recuento, lo que se puede asignar a este tipo
de observaciones la distribución de Poisson o una distribución binomial negativa. Si
las observaciones son continuas se puede asumir para  una distribución normal.

Todos estos modelos se pueden incluir dentro de la llamada familia exponencial


de distribuciones

de modo que (𝜃) recibe el nombre de parámetro natural.

Ejemplo 2.2 Sea  el número de observaciones del grupo  y  denota


el número de éxitos, entonces

 ~  (   )  = 1 2     

luego



y se demuestra que:

[] =  

 [] =   (1−  )

por lo que se observa que la población de donde se extrajo es heterocedástica.

43
43
La función de cuantía si pertenece a la familia exponencial de distribuciones,
porque

2.4.2. Componente Sistemática

Especifica las variables explicativas (independientes o predictoras) utilizadas en


la función predictora lineal. En la componente sistemática de un MLG especifica las
variables explicativas, que entran en forma de efectos f i jos en un modelo lineal, es
decir, las variables  se relacionan como

0 + 1 1 + 22 +    +  

esta combinación lineal de variables explicativas se denomina predictor lineal. Al-


ternativamente, se puede expresar como un vector (1 2         ) tal que

donde  es el valor del −ésimo predictor en el −ésimo individuo, e


 = 1 2     . El término independiente  se obtendría con esta notación haciendo
que todos los  sean iguales a 1 8 los .

Ejemplo 2.3 El modelo más sencillo podría expresar a  como una


combinación lineal de las variables independientes

siendo  parámetros a estimar.

44
44
2.4.3. Función de Link

Es una función del valor esperado de  , [ ] como una combinación lineal
de las variables predictoras. Se denota el valor esperado de  como 𝜇 = [ ],
entonces, la función link especifica una función () que relaciona 𝜇 con el predictor
lineal como

(𝜇) = 0 + 1 1 + 22 +    +  

así, la función link () relaciona las componentes aleatorias y sistemática. De este
modo, para  = 1 2     

Ejemplo 2.4 La función  más simple es (𝜇) = 𝜇, esto es, la identidad

(𝜇) = 𝜇 = [ ] = 0 + 1 1 + 22 +    +  

que da lugar al modelo de regresión lineal clásico

 = 𝜇+ 

donde,  es el vector de dimensión  × 1 de la variable respuesta

 𝜇 =[ ] = 

el componente sistemático.
 es una matriz de dimensión  × ( + 1) del modelo

 = (0  1  2       )

 = (1  2     
 )

que también representa al componente aleatorio con

45
45
2.5. Modelos Lineales Generalizados para Datos
Binarios

En muchos casos las respuestas tienen solo dos categorías del tipo si/no de modo que
se de…ne una variable aleatoria  que tome dos posibles variables 1 (éxito) y 0
(fracaso), es decir,

 ~ (1 )

de modo que, para  = 0 1 tendremos

luego, según la familia exponencial, el parámetro natural es

y se define como

donde

 =  ( = 1)  1−  =  ( = 0)

y la razón 
se llama razón de probabilidades. Utilizando función link se tiene:

46
46
el modelo lineal generalizado. Explícitamente desarrollado se tiene

de donde se deduce que


exp(  )
[ ] =  =
1 + exp(  )
esto se define por

exp(  )
( ) =
1 + exp(  )
y se denomina la función logística de la que se derivan los modelos de regresión
logística.

2.6. Estimación de Parámetros en un modelo de


Regresión Logística

Sabemos que la forma general del modelo de regresión logística es

 = [] + ;  = 1 2     

donde las observaciones  son variables aleatorias independientes de Bernoulli,


cuyos valores esperados son

47
47
Usaremos el método de máxima verosimilitud para estimar los parámetros del
predictor lineal 𝛽. Sea 1  2       una muestra aleatoria de tamaño  y
para cada valor de la variable  la función de cuantía es

naturalmente, cada observación  toma el valor 0 ó 1. Como las observaciones


son independientes, la función de verosimilitud es

por la razones ya explicadas en el Capítulo 1, es más cómodo trabajar con el


logaritmo de la función de verosimilitud

Ahora bien, para

derivando se tiene
por
tanto




por tanto

derivando se tiene

48
48




 

para aplicar este algoritmo es necesario partir de unas estimaciones iniciales 𝛽̂0. Se

podría usar métodos numéricos, para calcular los estimadores de los 𝛽̂0𝛽̂1      𝛽̂k 

49
49
Capítulo 3

APLICACIÓN DEL MODELO


LOGÍSTICO

3.1. Introducción

Sabemos que la función logística es

entonces

a partir de esta expresión se estima la matriz .


En el presente trabajo de tesis, como soporte informático para el análisis de datos
utilizaremos el lenguaje R en su versión 3.1.0. Como sabemos que el software R es

50
50
un conjunto de programas integrados para el manejo de datos, para simulación de
datos, cálculos y realización de grá…cos. Es además un lenguaje de programación
orientado a objetos y de libre implementación en cualquier PC.

La forma más fácil de usar R es en forma interactiva mediante la línea de comandos.


Una vez instalado hay hacer doble clik en el ícono de R, para que aparezca la ventana
del programa “Gui” (grafhical user interface) con un mensaje de apertura. Debajo de
este mensaje de apertura en la consola de R se encuentra el “prompt” que es el
símbolo  (“mayor”).

3.2. Dos Aplicaciones de Modelos Lineales Generalizados

3.2.1. Producción de Cobb-Douglas

Una empresa de investigación de mercados está interesada en realizar un estudio para


el gobierno sobre la industria aeronáutica de los Estados Unidos. Para ello, va a
estimar la función de producción Cobb-Douglas estocástica aumentada por la variable
el avance tecnológico, ya que

aplicando logaritmos tendremos

(^ ) = 1 + 2 log( ) + 3 log( ) + 4 log( )

donde  es la producción (en millones de dólares),  es el nivel de empleo ( que


representaremos a través del agregado de las nóminas en millones de dólares), 
es el nivel de capital utilizado (en millones de dólares) y  es el avance tecnológico,
representado por la proporción del PIB de las empresas tecnológicas en el PIB total
en la economía americana (en tanto por ciento).Suponemos que esta relación de
factores satisfacen las hipótesis de RLM con normalidad en el término de error.
Consideramos datos anuales correspondientes a 1958-1996, que se muestran en
la siguiente tabla.
50
Tabla 3.1: Inversión real en la economía de EE. UU.

Observación Año Log(Y) Log(L) Log(K) Log(A)


1 1958 8.7700 7.75803 9.3214 -0.44229
2 1959 8.8260 7.79136 9.3502 -0.67441
3 1960 8.6861 7.64248 9.2551 -0.04824
4 1961 8.6995 7.69871 9.2588 -0.07823
5 1962 8.7332 7.81145 9.2779 0.02132
6 1963 8.7509 7.77039 9.2977 0.06255
7 1964 8.7924 7.75307 9.3311 0.23289
8 1965 8.8750 7.82740 9.3657 0.43465
9 1966 9.1050 8.07770 9.5809 0.60064
10 1967 9.3129 8.18004 9.8358 0.77948
11 1968 9.4738 8.27055 9.9564 0.84076
12 1969 9.4291 8.31059 10.0004 1.00189
13 1970 9.3468 8.15047 9.9534 1.04609
14 1971 9.2124 7.91517 9.8486 0.95128
15 1972 9.0802 7.96106 9.8342 0.97795
16 1973 9.2748 8.02597 9.8140 1.19855
17 1974 9.3644 8.10119 9.8716 1.37927
18 1975 9.4094 8.14297 9.9271 1.21982
19 1976 9.5044 8.17836 9.9131 1.50437
20 1977 9.6047 8.28801 9.9559 1.71540
21 1978 9.7440 8.46720 10.1037 1.92360
22 1979 10.0222 8.65232 10.3419 2.16460
23 1980 10.1955 8.80499 10.5113 2.26792
24 1981 10.3034 8.98153 10.6039 2.42746
25 1982 10.2417 8.95546 10.7125 2.49750
26 1983 10.3262 8.93089 10.6632 2.47373
27 1984 10.2560 8.91690 10.7302 2.61771
28 1985 10.4624 8.98805 10.7732 2.44101
29 1986 10.5502 9.10319 10.8743 2.53751
30 1987 10.5737 9.17777 10.9206 2.85079
31 1988 10.6333 9.21186 11.0444 2.82018
32 1989 10.6768 9.25614 11.1949 2.82289
33 1990 10.8468 9.32587 11.2812 2.72615
34 1991 10.9698 9.24224 11.3309 2.54905
35 1992 11.0506 9.35001 11.3281 2.55048
36 1993 10.9173 9.28638 11.2780 2.50060
37 1994 10.8390 9.24362 11.1210 2.62398
38 1995 10.7585 9.12033 11.0568 2.77913
39 1996 10.7645 9.19414 11.1375 2.79638
Fuente: Proyecto e-Math: www.UOC.edu
Según la tabla anterior estimar el modelo de regresión lineal múltiple.

Solución:
Para estimar el modelo de regresión lineal múltiple, primero se debe estima los
parámetros

;  = 0 1 2 3

Para tal propósito, se utiliza el lenguaje R. Para tal efecto vamos a considerar
las siguientes denominaciones:

Log(Y) = PROD (producción valorizados en millones de dólares).

Log(L) = EMP (empleo de la nóminas en millones de dólares)

Log(K) = CAP (nivel de capital utilizado en millones de dólares)

Log(A) = TECN (es el avance tenológico según PIB en %)

Los datos son ingresados al lenguaje R.

52
52
53
53
Finalmente, el modelo de regresión lineal múltiple estimada estará dada por:

PROD = −125750 + 063637EMP + 054614CAP + 002808TECN

donde 2 = 09931, lo cual significa que el 9931 % de producción están explicadas


por las variables EMP, CAP y TECN y un 069 % se explicarían por las variables
no incluidas.

3.2.2. El Problema de los Ronquidos

En muchos casos las respuestas tienen solo dos categorías del tipo si/no de modo que
se puede definir una variable  que tome dos posibles valores 1 (éxito) y 0 (fracaso),
es decir

 ~ (1 )

en este caso


con  = 0 1.

El parámetro natural es

en este caso sabemos que



[ ] =  ( = 1) = ()

dependiente de  variables explicativas  = (1  2       ) y

54
54
 [ ] = ()(1− ())

en respuestas binarias, un modelo análogo al de regresión lineal es

() = 0 + 1 

que se denomina modelo de linealidad probabilidad lineal, ya que la probabilidad de


éxito cambia linealmente con respecto a .
El parámetro 1 representa el cambio de probabilidad por unidad de . Este
modelo es un Modelo Lineal Generalizado con un componente aleatorio binomial
y con función de enlace igual a la identidad. Tal como se aprecia en la aplicación
siguiente.
Se tiene la siguiente tabla donde se eligen varios niveles de ronquidos y se ponen
en relación con una enfermedad cardíaca. Se toma como puntuaciones relativas de
ronquidos los valores:
Nunca ! 0
Ocasional ! 1
Casi cada noche ! 2
Cada noche ! 3

Tabla 3.2: Enfermedad cardiaca versus ronquidos


Enfermedad
PROPORCION
cardiaca SI NO
Ronquido SI

Nunca 24 1355 0017


Ocasional 35 603 0055
Casi cada noche 21 192 0099
Cada noche 30 224 0118
Fuente: http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/
Categor/Tema3Cate.pdf

Encontramos la probabilidad para la gente que no ronca.

55
55
Para estimar el modelo lineal generalizado binomial correspondiente, utilizaremos
el lenguaje R.

 #Fijemos los valores de manera ordinal

 roncas − (0 1 2 3)

 prop.SI − (24(1355 + 24) 35(603 + 35) 21(192 + 21) 30(224 + 30))

 modelo − glm(prop.SI ~ roncas)

 summary(modelo).

Luego los parámetros estimados son:

0 = 0020363

1 = 0034585

de donde se tiene que

() = 0020363 + 0034585 ()

para gente que no ronca ( = roncas = 0) la probabilidad estimada de enfermedad


cardíaca sería

^ = 0020363

En resumen, la gente que no ronca que es el 2 %, tienen enfermedad cardíaca


y la probabilidad de ataque cardíaco aumenta cuando los niveles de ronquidos se
incrementan.

56
56
Conclusiones

1. El Modelo Lineal Generalizado es un método que se utiliza cuando la variable


de repuesta Y no cumple con el supuesto de normalidad y homocedasticidad, para
lo cual sólo se exige que la variable Y sea miembro de la familia exponencial.

2. En el presente trabajo de tesis se estudia como una aplicación del modelo


lineal generalizado el modelo binario y el modelo logístico.

57
57
Bibliografía

[1] A.J.Dobson. (1996). An Introduction to Generalized Linear Models: Chapman


& Hall.

[2] J.A.Nelder&R.W.M.Wedderburn. (1992). Generalized Linear Models. J,R.

Statist. Soc.A,135,370-84.

[3] Francesc Carmona. (2003). Modelos Lineales. Universidad de Barcelona.

[4] Sergio Martinez Valenzuela. (2000). Proyecciones Estadísticas. Lima-Perú.

[5] A.G.Nogales. (1998). Estadística Matemática: Servicio de Publicaciones Uex.

[6] Franklin A. Graybill. (1976). Teoría y Aplicación de Modelo Lineal. Colorado


State University.

[7] Maximo Mitacc Meza. (1999). Tópicos de Inferencia Estadística. Lima-Perú.

[8] Anónimo. Google.

http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Categor/Tema3Cate.pdf.

[9] Clarice Garcia Borges Demetrio. (2002). Modelos Lineares Generalizados em


Experimentação Agronômica. Piracicaba, SP.

[10] Proyecto e-Math: www.UOC.edu. Google

https://www.uoc.edu/in3/emath/e-Math.ppt

58
58

Vous aimerez peut-être aussi