Vous êtes sur la page 1sur 9

Revista Colombiana de Estad stica o Volumen 27 N 2. P ags. 99 a 107.

Diciembre 2004

M etodo bayesiano bootstrap y una aplicaci on en la estimaci on del percentil 85 en ingenier a de tr ansito
Juan Carlos Correa M.*

Resumen El percentil 85 juega un papel fundamental en ingenier a de tr ansito. En este art culo presentamos diferentes procedimientos estad sticos, tanto param etricos como no param etricos, para su estimaci on. Mediante un ejemplo, ilustramos la diferencia entre ellos. Palabras Clave: Percentil 85, estimaci on, ingenier a de tr ansito.

Abstract The 85th quantile plays an important role in transportation engineering. In this paper we present dierent statistical procedures for its estimation, considering both, parametric and nonparametric procedures. With an example, we illustrate the dierence between them. Key words: 85th Quantile, Estimation, Transportation Engineering.

* Profesor asociado. Escuela de Estad stica Universidad Nacional de Colombia, Sede Medell n. E-mail: jccorrea@perseus.unalmed.edu.co

99

100

Juan Carlos Correa M

1.

Introducci on

La teor a cl asica considera la informaci on previa disponible b asicamente para determinar los tama nos muestrales y los dise nos de experimentos y, a veces, como forma de cr tica de los resultados obtenidos. Una caracter stica distintiva de la estad stica bayesiana es la forma expl cita como tiene en cuenta la informaci on previa; sin embargo, uno de sus problemas se encuentra en la necesidad de asumir la forma param etrica de la distribuci on que genera los datos. En este art culo vemos c omo, mediante la t ecnica bootstrap es posible evitar este supuesto. Supongamos que estamos interesados en un par ametro particular de la poblaci on, digamos y que la informaci on a priori sobre est a resumida en (). Si x1 , x2 , , xn representan la muestra obtenida de la poblaci on con densidad f desconocida, podemos aproximarla utilizando un estimador de densidades, digamos f (x | ), y hallar un estimador de la distribuci on a posteriori como: ( | x1 , x2 , , xn ) L ( | x1 , x2 , , xn ) () , donde L ( | x1 , , xn ) representa la funci on de verosimilitud estimada bootstrap, proporcional a f . Boos & Monahan (1986) proponen la siguiente t ecnica bootstrap para determinar L: n de las xi s. 1. Calcular la funci on de distribuci on emp rica F para la n y calcular 2. Generar B muestras aleatorias de tama no n de F j muestra j . , 3. De las B estimadores simulados 1 2 , , B , calcular el estimador de densidades kernel, fN B (u) = 1 BhB
B

K
i=1

u (j ) hB

como una estimaci on de la densidad de . Si se hace u = x en la ecuaci on anterior, fN B (x ) es una estimaci on de la densidad muestral de dado . Evalu andola en x = , resulta como funci on de para ser usada como verosimilitud: LN B 1 | = BhB
B

K
i=1

2 j hB

M etodo bayesiano bootstrap

101

4. La distribuci on posterior resultante | es entonces proporcional a LN B | , y la constante de normalizaci on se puede hallar mediante integraci on num erica. El percentil 85 es un par ametro importante en ingenier a de tr ansito. En el presente art culo revisamos diferentes m etodos de estimaci on, puntual y por intervalo de conanza, para dicho par ametro. Los m etodos presentados se aplican tambi en al percentil 15, otro par ametro importante para los ingenieros de tr ansito, el cual puede considerarse como el dual del percentil 85. Al nal presentamos un ejemplo con datos reales donde se aplican los diferentes m etodos.

2.

El procedimiento bootstrap

La t ecnica conocida como bootstrap fue propuesta por Efron (1979, 1982) para hallar intervalos de conanza en situaciones donde es imposible hallar anal ticamente la distribuci on muestral del estimador. Es una t ecnica de remuestreo, de uso intensivo del computador, y funciona de la siguiente forma: 1. Sea X1 , X2 , , Xn la muestra a nuestra disposici on, y F la funci on de distribuci on emp rica. 2. Se utiliza un generador de n umeros aleatorios para obtener n nuevos independientemente y con reemplazo de F . Estos puntos X1 , X2 , , Xn nuevos valores son llamados una muestra bootstrap. 3. Se calcula el estad stico de inter es para la muestra bootstrap. 4. Se repiten los pasos 1) y 2) un n umero muy grande de veces, digamos N , cada vez con una muestra independiente. Digamos que la secuencia de es1 2 3 N timadores bootstrap para el estad stico de inter es es , , , , . 5. Con estas muestras bootstrap se puede realizar todo el trabajo inferencial deseado. Renamientos del procedimiento anterior se encuentran en DiCiccio & Tibshirani (1987).

102

Juan Carlos Correa M

3.
3.1.

Estimaci on cl asica del percentil 85


M etodos param etricos

Los m etodos param etricos requieren la especicaci on de la distribuci on de la cual provienen los datos, por ejemplo, si la distribuci on de los datos es normal, Weibull, etc. Una vez estimados los par ametros que caracterizan la distribuci on, por alguno de los m etodos tradicionales, el de m axima verosimilitud es uno de ellos se procede a estimar el percentil poblacional, digamos 85 , calculado como:
85

f (x | )dx = 0,85,

donde f (x | ) es la densidad de la poblaci on de la cual provienen los datos con funci on de distribuci on F (x | ). Si es un estimador para , basado en la muestra X1 , X2 , , Xn , entonces el estimador de 85 ser a 85 y se puede calcular de la ecuaci on:
b85

F (85 ) =

f (x | )dx = 0,85.

En el caso de la distribuci on Weibull tendremos: F (85 ) = 1 exp


b 85

= 0,85,

donde > 0 y > 0 son los par ametros estimados de la distribuci on. De la anterior expresi on obtenemos:
b . 85 = ( ln (0,15))
1

Un estimador sencillo que corresponde a un elemento en la muestra es: 85 = X([0,85n]+1) , donde X(1) X(2) X(n) son los llamados estad sticos de orden de la muestra, esto es, la muestra ordenada en forma creciente, y [0,85n] es el menor entero m as cercano a 0,85n. La densidad de 85 , asumiendo el estimador sencillo, est a dada por: g[0,85n]+1 (t) = n! F (t) [0,85n]! n [0,85n] 1 !
[0,85n]

1 F (t)

n[0,85n]1

f (t).

M etodo bayesiano bootstrap

103

Para la distribuci on Weibull tratada anteriormente, la funci on densidad de probabilidad ser a: g[0,85n]+1 (t) = n! [0,85n]!(n [0,85n] 1)! exp t

1 exp t1

[0,85n]

n[0,85n]1

exp

Los estimadores de m axima verosimilitud para y son la soluci on del siguiente sistema de ecuaciones simult aneas (Johnson & Kotz 1970, P ag. 255): 1 n
1 b n

= =

b x i

1 b

, n .
n i=1

i=1 b

n i=1

b x i ln (xi )

ln (xi )

Cuando n podemos utilizar el siguiente resultado asint otico: si F posee una densidad f en una vecindad de p , donde f es positiva y constante, entonces: p(1 p) . p es AN p , 2 f (p ) n Por lo tanto, un intervalo de conanza asint otico de nivel 100(1 ) % para 0,85 , est a dado por: 0,85 z 2 1 0,85 0,15 , 0,85 + z 2 n f (0,85 ) 1 0,85 0,15 . n f (0,85 )

En la pr actica f es desconocida; por lo tanto, se puede utilizar un estimador kernel de densidades, de la forma:
n

f (x) =
i=1

xi x h

3.2.

M etodos no param etricos

El cuantil muestral de orden p (0 < p < 1) es: p = X([np]+1) ,

104

Juan Carlos Correa M

donde [np] denota el mayor entero menor o igual que np. El intervalo de conanza no param etrico para p , est a dado por X(i) , X(j ) , con nivel de conanza Q(i, j | p, n), con 1 i < j n y 0 < p < 1,
j 1

Q(i, j | p, n) =
k=i

n k p (1 p)nk . k

3.3.

Bootstrap

La t ecnica bootstrap, ya descrita antes, funciona de la siguiente manera: 1. Sea X1 , X2 , , Xn la muestra a nuestra disposici on. Sea F la funci on de distribuci on emp rica. 2. Utilice un generador de n umeros aleatorios para obtener n nuevos puntos independientemente y con reemplazo de F . Estos nuevos X1 , X2 , , Xn valores son llamados una muestra bootstrap. 3. Calcule el percentil 85 para la muestra bootstrap. 4. Repita los pasos 1) y 2) un n umero muy grande, digamos N , cada vez con una muestra independiente. Digamos que la secuencia de estimadores 1 2 3 N bootstrap para el percentil 85 es 0 ,85 , 0,85 , 0,85 , , 0,85 .
5. Denotemos por [a , b ] el intervalo central con 95 % de los valores 0 ,85 , o sea, # 0 ,85 < a
j

= 0,025, y

# 0 ,85 < b

= 0,975.

Renamientos del intervalo anterior se encuentran en DiCiccio & Tibshirani (1987). Los m etodos bayesianos consideran los par ametros como variables aleatorias, no jos como en la escuela cl asica; por lo tanto, el concepto de distribuci on de los par ametros es fundamental. Tambi en se considera posible el uso de informaci on a priori, no obtenida por la observaci on de una muestra de la distribuci on de los datos. Esta parte ha sido controversial, y el car acter multivariado de los par ametros diculta en grado sumo la aplicaci on de estas t ecnicas. En general, la t ecnica se resume as : Sea (), la distribuci on a priori, y f (x1 , x2 , , xn | ), la distribuci on de la muestra aleatoria observable. La

M etodo bayesiano bootstrap

105

uni on de la informaciones a priori y muestral genera una distribuci on conocida como la distribuci on a posteriori, denotada por ( | x1 , x2 , , xn ), calculada esta u ltima como: ( | x1 , x2 , , xn ) () f (x1 , x2 , , xn | ), donde es el s mbolo de proporcionalidad.

4.

Ejemplo

Con el prop osito de ilustrar los m etodos presentados anteriormente utilizaremos una informaci on sobre velocidades recogida por estudiantes del posgrado de v as de la Universidad Nacional de Colombia, Sede Medell n, en la carretera El Volador. Se tom o un tramo de 25,75 mts y con el uso de un cron ometro y un enoscopio se calcula la velocidad de un carro. Las velocidades registradas para autom oviles fueron, en km/h, 60,2 39,4 58,7 47,3 54,2 38,1 43,3 41,2 46,4 39,8 39,4 47,8 51,2 60,2 39,1 46,8 46,6 46,6 49,0 63,9 64,4 55,8 32,5 40,5 51,5 57,9 53,6 41,8 58,3 53,3 39,1 61,8 45,9 42,7 41,6 44,8 44,3 60,6 61,4 54,9 65,3 48,5 32,3 26,0 55,2 69,7 53,9 31,7 53,3 60,2 50,4 61,4

La media de los datos es 49,49615 y la desviaci on est andar es 9,87119. Si asumimos la distribuci on de Weibull como la que origina los datos, tenemos como par ametros estimados por el m etodo de m axima verosimilitud = 5,791988 y = 53,48502. Con esta distribuci on obtenemos un percentil 85 estimado igual a 59,73958. El estimador sencillo del percentil 85 es 60,6. El intervalo de conanza obtenido utilizando la f.d.p. g[0,85n]+1 (t), utilizando y , es (55,85; 62,80). Se calcula resolviendo la ecuaci on:
B

g[0,85n]+1 (t)dt = 0,95,


A

donde el intervalo de conanza es (A, B ). El intervalo de conanza asint otico del 95 % para el percentil 85, asumiendo que la distribuci on que genera los datos es Weibull es (56,7297; 64,4703).

106

Juan Carlos Correa M

El intervalo de conanza del 95 % bootstrap es (57,9; 63,9). El intervalo de conanza no param etrico presentado en la secci on 3 es (58,3; 64,4) que corresponde a las observaciones ordenadas 40 y 50. El nivel de signicancia es 0,948567, que es el m as cercano al nivel deseado 0,95. Tabla 1: Resumen de los intervalos cl asicos.

M etodo Exacto Asint otico No param etrico Bootstrap

L mite Inferior 55.85 56.7297 58.3 57.9

L mite Superior 62.80 64.4703 64.4 63.9

4.1.

M etodo bayesiano bootstrap

Si asumimos que podemos resumir nuestro conocimiento a priori sobre el percentil 85, con una distribuci on normal con media 0 y desviaci on t pica 0 , entonces los intervalos de probabilidad, para diferentes valores, est an dados a continuaci on: Tabla 2: Intervalos de probabilidad para diferentes a priori. A priori
2

Media

Moda L mite inferior L mite superior 56,36364 56,96970 58,18182 56,36364 56,96970 58,18182 63,63636 64,24242 64,84848 63,63636 63,03030 61,81818

N (70, 202 ) 60,37954 60,60606 N (70, 10 ) 60,69627 60,60606 N (70, 5 )


2 2

61,53235 61,21212 60,29840 60,60606 60,14754 60,00000

N (60, 10 ) 60,30264 60,60606 N (60, 32 ) N (60, 1 )


2

Hemos seleccionado distribuciones a priori que reejan desde muy poco conocimiento, llamadas poco informativas, pero en t erminos de una distribuci on

M etodo bayesiano bootstrap

107

normal, que se muestran en t erminos de una gran varianza, hasta distribuciones a priori con varianzas muy peque nas, lo que indica buena informaci on previa. Sin embargo, el intervalo de probabilidad a posteriori es relativamente estable, lo cual indica un gran dominio de la informaci on muestral.

5.

Conclusiones y recomendaciones

El ingeniero de tr ansito puede selecccionar el m etodo de estimaci on de los percentiles seg un las condiciones que se presenten en su caso particular. Si no tiene una idea clara y justicable de la distribuci on te orica, es preferible seleccionar uno de los m etodos no param etricos. El m etodo bayesiano permite la incorporaci on expl cita de informaci on previa disponible, lo cual es muy atractivo para el ingeniero de tr ansito, ya que usualmente esta informaci on es abundante. C omo resumir esta informaci on en forma de distribuci on de probabilidad, es un problema que no tiene una soluci on u nica y clara. Adem as, el m etodo bayesiano permite realizar inferencias a un sin haber obtenido una muestra, lo cual no es sucientemente resaltado.

Bibliograf a
Boos, D. D. & Monahan, J. F. (1986), Bootstrap methods using prior information, Biometrika 73(1), 7783. DiCiccio, T. & Tibshirani, R. (1987), Bootstrap condence intervals and bootstrap approximations, Journal of American Statistical Association 82(397), 163170. Dudewicz, E. J. (1976), Introduction to Statistics and Probability, Holt, Rinehart and Winston. Efron, B. (1979), Computers and the theory of statistics: Thinking the unthinkable, SIAM Review 21(4), 460480. Efron, B. (1982), The Jackknife, the Bootstrap and Other Resampling Plans, SIAM. Johnson, N. L. & Kotz, S. (1970), Continuous Univariate Distributions-1, John Wiley & Sons. Sering, R. J. (1980), Approximation Theorems of Mathematical Statistics, John Wiley & Sons.

Vous aimerez peut-être aussi