Académique Documents
Professionnel Documents
Culture Documents
AREQUIPA – PERÚ
2017
Índice general
Agradecimientos 1
Resumen 2
Introducción 3
1
2.4.2. Componente Sistemática . . . . . . . . . . . . . . . . . . . . . 43
Bibliografía 58
2
AGRADECIMIENTOS
A Dios, por bendecirme en todo momento de mi vida.
Quiero agradecer de manera muy especial a toda mi familia, por todo el apoyo
y la con…anza que depositan en mí, pues son el pilar de mi vida, gracias por estar conmigo
en los momentos felices y difíciles, gracias por sus enseñanzas que son invaluables para
mí, gracias por el ejemplo que han contribuido positivamente a mi vida profesional
y por los ánimos para salir adelante, mis agradecimientos a mis padres Rocío,
Jesús y mi hermano Anthony por estar siempre conmigo, gracias por todo.
1
RESUMEN
En modelos lineales se estudia que el error del modelo tenga media 0 y sea
homocedástica, además que cumpla con la normalidad a fin de que el modelo sea
utilizable, pero en muchos casos esta hipótesis no es satisfecha, porque el modelo
puede ser heterocedástica.
2
INTRODUCCIÓN
Sin embargo, en muchas ocasiones nos encontramos con que uno o varios de estos
supuestos no se cumplen. Por ejemplo, es muy común en ecología que a medida que
aumenta la media de la muestra, aumenta también su varianza, o en todo caso, hay
problemas que pueden ser tratados mediante modelo binomiales y su varianza de-
pende de la probabilidad de ocurrencia, o sea, la población ya no es homocedástica,
en esos casos, una alternativa a la transformación de la variable respuesta y a la
3
falta de normalidad es el uso de los modelos lineales generalizados (GLM) de las
siglas en inglés Generalized Linear Models que son una extensión de los modelos
lineales que permiten utilizar distribuciones no normales de los errores (binomiales,
Poisson, gamma, etc.) y varianza no constante. Por lo que, el objetivo principal del
presente trabajo de tesis, es estudiar el modelo lineal generalizado con sus compo-
nentes de aleatoriedad, sistematicidad y función de enlace, estimación respectiva de
parámetros y su aplicación.
Teniendo como hipótesis: que la falta de normalidad, homocedasticidad y la no
linealidad de los datos, para esos casos es el uso de los modelos lineales generalizados.
En el Capítulo III se incluye dos aplicaciones del modelo logístico sobre: Producción
de Cobb-Douglas y el problema de ronquidos. Dichas aplicaciones son asistidas con
soporte informático del lenguaje R en su versión 3.1.0.
4
Capítulo 1
ESTADÍSTICO SUFICIENTE
MINIMAL Y FAMILIAS
EXPONENCIALES
1.1. Introducción
En la Estadística Inferencial se estudia que un buen estimador puntual goza de las
propiedades tales como: insesgado, consistente, eficiente y suficiente. Un estimador es
un estadístico, que se define como una función de las observaciones que conforman la
muestra. Por lo que, la idea principal de buscar un estimador a partir de la muestra
de tamaño , es para representar al parámetro poblacional.
5
Para definir un estimador puntual, tomamos una variable aleatoria con
función de distribución (𝜃), donde 𝜃 denota al parámetro desconocido de la
población. Sea 1 2 una muestra aleatoria de tamaño extraída de
esta población, la función definida por
𝜃̂= t(1 2 )
poblacional 𝜃, por lo que nos preguntamos cuál de los estimadores será mejor. En
realidad, el verdadero valor de 𝜃, nunca se conoce, lo único que podemos hacer es;
tratar de encontrar algún criterio para decidir cuál de ellos es mejor estimador de
tal manera que cumpla con: insesgabilidad, consistencia, eficiencia y suficiencia.
𝜃̂= t(1 2 )
es un estimador insesgado si
h i
𝜃̂ =𝜃 8 𝜃̂
Ejemplo 1.1 Sea 1 2 una muestra aleatoria extraída de una
población normal (𝜇 𝜎2 ). El estadístico 𝑋̅
es un estimador insesgado.
En efecto:
Sabemos que
6
1.2.2. Estimador Consistente
=𝜃̂ − 𝜃
Sin embargo, esperemos que un buen estimador tenga su valor muy cercano
al valor verdadero del parámetro o por lo menos tenga una alta probabilidad de
acercarse. O sea, si dado una sucesión de estimadores
7
es un estimador consistente de 𝜎2 .
En efecto:
i) Sabemos que
luego
por lo que
de modo que
8
2 = 0
sabemos que
luego
por lo tanto
𝜃̂1 es más eficiente que 𝜃̂2 si
[^𝜃̂1 ] [^𝜃̂2]
9
Ejemplo 1.3 Sea 1 2 una muestra aleatoria de tamaño de una
población (𝜇 𝜎2 ), donde
𝜃̂1 = 𝑋̅ ^𝜃̂2 =
En efecto:
Sabemos que
de modo que
se concluye que 𝑋 es el estimador más eficiente que .
: R ! R
un estadístico definido por
= (1 2 )
: Φ R! R
definida por
= (1 2 ) = 0 2 R
Esta de…nición induce una partición del espacio Φ por la propia definición del
estadístico, como veremos en el siguiente ejemplo:
En efecto:
Como ~ (1 ), entonces tenemos
11
11
Luego el espacio muestral de observaciones correspondiente a la muestra
aleatoria esta dado por
Φ = f(0 0 0) (0 0 1) (0 1 0) (1 0 0) (0 1 1) (1 0 1) (1 1 0) (1 1 1)g
La estadística
0 13 23 1
Gráficamente.
12
12
Así, si usamos la estadística
1 + 2 + 3
= (1 2 3 ) =
3
= (1 2 )
13
13
Ejemplo 1.5 Sea 1 2 una muestra aleatoria extraída de una
población de Poisson ( ). Definimos
En efecto:
Tenemos la distribución condicional
[1 = 1 2 = 2 = = ]
[(1 2 ) = ] =
[ = ]
siempre que
1 + 2 + + =
entonces
luego
14
14
por tanto
es independiente de 𝜃. Luego
2 hipótesis
por ) = ; ] =
luego
16
16
En efecto:
La función de cuantía conjunta de la muestra y por muestreo independiente será
donde
para
17
17
donde
con
18
18
ii) La medida es aleatoria y por tanto, no puede ser tratado como una función
de 𝜃.
Sin embargo, podemos aprovechar la definición de para definir el error cuadráti-
co medio (ECM).
19
19
luego
b) Sabemos que
luego
20
20
Definición 1.2 Un estimador = (1 2 ) de 𝜃 es mejor que un esti-
mador = (1 2 ) de 𝜃 si:
una estimador insesgado de 𝜃, pero (^𝜃̂) puede ser un estimador sesgado de (𝜃).
La esperanza condicional definida por
se observa, conforme varía sobre todos los posibles valores de , se obtiene una
función de por eso, [ ] es una variable aleatoria.
El siguiente teorema se necesita para demostrar el teorema de Rao-Blackwell.
pero
por tanto
[( ); 𝜃] = 0
22
22
En efecto:
luego
donde
por tanto
23
23
tal que
[(); 𝜃] = 0 8 𝜃 0
como
entonces
1
Así, tenemos
=
es
24
24
luego
de donde
25
25
Ejemplo 1.11 Consideremos dos muestra aleatorias 1 2 de la
P
población de Bernoulli ( 1). Que el estadístico de…nido por =1 es un
siempre que
26
26
será bastante fácil de obtener estadísticos su…cientes del parámetro con familia ex-
ponencial.
donde:
( 𝜃) ( 𝜃) son funciones reales de 𝜃 y
() () son funciones reales de .
esto es equivalente a
de modo que
Esto nos permite afirmar que las distribuciones de Poisson son una familia
exponencial de distribuciones.
27
27
familia exponencial uniparamétrica si la función de cuantía o densidad conjunta es
de la forma
esto es equivalente a
de modo que
Esto nos permite afirmar que las distribuciones Exponenciales son una familia
exponencial de distribuciones.
28
28
y representa el número de ensayos.
Entonces
esto es equivalente a
de modo que
Esto nos permite afirmar que las distribuciones Binomiales son una familia
exponencial de distribuciones.
de modo que
29
29
Esto nos permite afirmar que la distribución (𝜇, 1) es una familia exponencial
de distribuciones.
Para visualizar mejor la familia exponencial de distribuciones uniparamétricas,
presentaremos en una tabla las funciones (𝜃) ( 𝜃) () ().
30
30
esto es equivalente a
luego
31
31
por lo tanto
32
32
Capítulo 2
MODELOS LINEALES
GENERALIZADOS
2.1. Introducción
33
33
2.2. Regresión Lineal Múltiple
Los Modelos de Regresión estudian la relación estocástica cuantitativa entre una
variable de interés y un conjunto de variables explicativas. Sea la variable
de interés, variable repuesta o dependiente y sean 1 2 las variables
explicativas o regresoras. La formulación matemática de este modelo es la siguiente:
= [1 2 ] +
[1 2 ]
es lineal. Por tanto, la expresión matemática del modelo de regresión lineal general
es
0 1
ya que, los parámetros miden la intensidad media de los efectos de las variables
explicativas sobre la variable a explicar y se obtienen al tomar las derivadas parciales
de la variable explicada respecto a cada una de las variables explicativas:
esto es equivalente a:
si
= + = [ ] +
donde
35
35
o, equivalentemente,
[] = 0 = 1 2
ya que
o, equivalentemente,
[] = 𝜎2 = 1 2
3. La distribución es normal,
o, equivalentemente,
~ (0 𝜎2 ) = 1 2
( ) = 0 ≠
esta hipótesis implica que los errores son independientes dos a dos lo que,
bajo normalidad, equivale a
( ) = 0 ≠
36
36
5. Debemos tener + 1. En caso contrario no se dispondría de información
37
37
suficiente para estimar los parámetros del modelo.
Múltiple
Sea
^ un estimador del vector de parámetros . El vector de predicciones es
^ =
^
= − ^
38
38
el estimador por mínimos cuadrados
^ se obtiene minimizando la suma de los
derivando respecto a
^
e igualando a cero, se obtienen las ecuaciones de regresión
(^ ) = 0 () −2 + 2
^=0
^
() =
debe tenerse en cuenta que para calcular este estimador es necesario que la matriz
sea invertible. Esto está garantizado por la hipótesis 6 del modelo.
39
39
Ejemplo 2.1 Consideremos el modelo lineal múltiple
[ ] =
ahora
40
40
pero
40
40
es suficiente minimal para (𝜎2 ).
41
41
2.4. Modelo Lineal Generalizado
En primer lugar vamos a presentar que existen poblaciones heterocedásticas, o
sea, poblaciones de varianzas no constantes. Por ejemplo, en una población Binomial,
donde la variable respuesta se define por:
asumamos que la
[ = 1] = 2 [0 1] = 1 2
entonces
[ = 0] = 1−
Definición 2.1 Los modelos lineales generalizados son una extensión de los modelos
lineales, que permiten modelar en poblaciones heterocedásticas mediante tres com-
ponentes básicos: Componente aleatorio, componente sistemático y función de link
(función de enlace).
42
42
2.4.1. Componente Aleatorio
En otros casos cada observación es un recuento, lo que se puede asignar a este tipo
de observaciones la distribución de Poisson o una distribución binomial negativa. Si
las observaciones son continuas se puede asumir para una distribución normal.
~ ( ) = 1 2
luego
y se demuestra que:
[] =
[] = (1− )
43
43
La función de cuantía si pertenece a la familia exponencial de distribuciones,
porque
0 + 1 1 + 22 + +
44
44
2.4.3. Función de Link
Es una función del valor esperado de , [ ] como una combinación lineal
de las variables predictoras. Se denota el valor esperado de como 𝜇 = [ ],
entonces, la función link especifica una función () que relaciona 𝜇 con el predictor
lineal como
así, la función link () relaciona las componentes aleatorias y sistemática. De este
modo, para = 1 2
= 𝜇+
𝜇 =[ ] =
el componente sistemático.
es una matriz de dimensión × ( + 1) del modelo
= (0 1 2 )
= (1 2
)
45
45
2.5. Modelos Lineales Generalizados para Datos
Binarios
En muchos casos las respuestas tienen solo dos categorías del tipo si/no de modo que
se de…ne una variable aleatoria que tome dos posibles variables 1 (éxito) y 0
(fracaso), es decir,
~ (1 )
y se define como
donde
= ( = 1) 1− = ( = 0)
y la razón
se llama razón de probabilidades. Utilizando función link se tiene:
46
46
el modelo lineal generalizado. Explícitamente desarrollado se tiene
exp( )
( ) =
1 + exp( )
y se denomina la función logística de la que se derivan los modelos de regresión
logística.
= [] + ; = 1 2
47
47
Usaremos el método de máxima verosimilitud para estimar los parámetros del
predictor lineal 𝛽. Sea 1 2 una muestra aleatoria de tamaño y
para cada valor de la variable la función de cuantía es
derivando se tiene
por
tanto
por tanto
derivando se tiene
48
48
para aplicar este algoritmo es necesario partir de unas estimaciones iniciales 𝛽̂0. Se
podría usar métodos numéricos, para calcular los estimadores de los 𝛽̂0𝛽̂1 𝛽̂k
49
49
Capítulo 3
3.1. Introducción
entonces
50
50
un conjunto de programas integrados para el manejo de datos, para simulación de
datos, cálculos y realización de grá…cos. Es además un lenguaje de programación
orientado a objetos y de libre implementación en cualquier PC.
Solución:
Para estimar el modelo de regresión lineal múltiple, primero se debe estima los
parámetros
; = 0 1 2 3
Para tal propósito, se utiliza el lenguaje R. Para tal efecto vamos a considerar
las siguientes denominaciones:
52
52
53
53
Finalmente, el modelo de regresión lineal múltiple estimada estará dada por:
En muchos casos las respuestas tienen solo dos categorías del tipo si/no de modo que
se puede definir una variable que tome dos posibles valores 1 (éxito) y 0 (fracaso),
es decir
~ (1 )
en este caso
con = 0 1.
El parámetro natural es
54
54
[ ] = ()(1− ())
() = 0 + 1
55
55
Para estimar el modelo lineal generalizado binomial correspondiente, utilizaremos
el lenguaje R.
roncas − (0 1 2 3)
summary(modelo).
0 = 0020363
1 = 0034585
^ = 0020363
56
56
Conclusiones
57
57
Bibliografía
Statist. Soc.A,135,370-84.
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Categor/Tema3Cate.pdf.
https://www.uoc.edu/in3/emath/e-Math.ppt
58
58