Académique Documents
Professionnel Documents
Culture Documents
para topografa
66
MANUALES UEX
66
2009
Edita Universidad de Extremadura. Servicio de Publicaciones C./ Caldereros, 2 - Planta 2 - 10071 Cceres (Espaa) Telf. 927 257 041 - Fax 927 257 046 publicac@unex.es www.unex.es/publicaciones
ISSN 1135-870-X ISBN 978-84-692-0988-2 Depsito Legal M-14.077-2009 Edicin electrnica: Pedro Cid, S.A. Telf.: 914 786 125
Pr ologo
Es bien conocido que los errores aleatorios est an presentes en todo proceso de medici on. En un trabajo topogr aco, un estudio y tratamiento adecuado de dichos errores es de vital importancia para avalar las mediciones realizadas, as como para determinar el comportamiento de las observaciones indirectas derivadas de ellas. Teniendo esto en mente, en este manual desarrollamos los contenidos matem aticos b asicos necesarios para afrontar con exito el estudio de los errores aleatorios, que es el objeto de inter es de la Teor a de errores. Sin embargo, los contenidos seleccionados van a ser expuestos en un contexto m as general que el que estrictamente dene la Teor a de errores, aunque en todo momento ser an ilustrados con una gran variedad de ejemplos t picos de dicha teor a. Estos contenidos son los apropiados para una asignatura de estad stica b asica para Ingenier a T ecnica en Topograf a as como del futuro Grado de Ingenier a en Geom atica y Topograf a y est an programados para impartirse en 60 horas presenciales (45 horas de desarrollo te orico y 15 horas de desarrollo pr actico). Este manual ha sido dividido en 9 temas, agrupados en 4 bloques tem aticos: M etodos para la descripci on y an alisis de conjuntos de datos, Probabilidad, Teor a de muestra y Estad stica Inferencial. Los dos primeros temas est an dedicados a describir y analizar datos. En el Tema 1 exponemos c omo realizar un estudio estad stico descriptivo apropiado para ordenar, resumir y poder anacontinuaci on, en el Tema 2, desarrollamos las t ecnicas necesarias para describir y analizar conjuntamente una muestra con datos multidimensionales. En el segundo bloque tem atico exponemos los conceptos principales de la Teor a de la Probabilidad. Concretamente, en el Tema 3 introducimos el concepto
Manuales Uex 7
Manuales Uex 8
Indice general
Pr ologo 0. Preliminares 0.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.2. Clasicaci on de los errores en el proceso de medici on . . . . . . 0.3. Deniciones y conceptos b asicos . . . . . . . . . . . . . . . . . . 0.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bloque tem atico I: M etodos para la descripci on y an alisis de conjuntos de datos 1. M etodos para la descripci on y an alisis de conjuntos de datos unidimensionales 1.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Gr acos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4. Medidas caracter sticas . . . . . . . . . . . . . . . . . . . . . . . 1.4.1. Medidas de centralizaci on . . . . . . . . . . . . . . . . . 1.4.2. Medidas de posici on . . . . . . . . . . . . . . . . . . . . 1.4.3. Medidas de dispersi on . . . . . . . . . . . . . . . . . . . 1.4.4. Medidas de forma . . . . . . . . . . . . . . . . . . . . . 1.4.5. Transformaci on de datos . . . . . . . . . . . . . . . . . . 1.5. Pr acticas de laboratorio . . . . . . . . . . . . . . . . . . . . . . 1.6. Cuestiones y problemas . . . . . . . . . . . . . . . . . . . . . . 11 11 12 17 20 21 24 33 34 36 39 27 9
I
1 1 1 3 6
Manuales Uex 9
Manuales Uex
4.3.3. Medidas de dispersi on . . . . . . . . . . . . . . . . . . . 100 4.3.4. Medidas de forma . . . . . . . . . . . . . . . . . . . . . 103 4.3.5. Transformaci on de variables aleatorias . . . . . . . . . . 104
10
5.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 5.2. Vector aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 5.2.1. Funci on de probabilidad conjunta . . . . . . . . . . . . . 116 5.2.2. Funci on de densidad conjunta . . . . . . . . . . . . . . . 117 5.2.3. Funciones de probabilidad y de densidad marginales . . 119 5.3. Independencia de variables aleatorias . . . . . . . . . . . . . . . 121 5.4. Medidas de asociaci on . . . . . . . . . . . . . . . . . . . . . . . 123 5.5. Transformaci on de vectores aleatorios . . . . . . . . . . . . . . 126 5.6. Pr acticas de laboratorio . . . . . . . . . . . . . . . . . . . . . . 131 5.7. Cuestiones y problemas . . . . . . . . . . . . . . . . . . . . . . 133 6. Principales modelos de probabilidad en el campo de la Topograf a 137 6.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 6.2. Modelos de probabilidad discretos . . . . . . . . . . . . . . . . 138 6.2.1. Distribuci on uniforme discreta . . . . . . . . . . . . . . 138 6.2.2. Distribuci on binomial y de Bernoulli . . . . . . . . . . . 140 6.3. Modelos de probabilidad continuos . . . . . . . . . . . . . . . . 148 6.3.1. Distribuci on uniforme continua . . . . . . . . . . . . . . 148 6.3.2. Distribuci on normal . . . . . . . . . . . . . . . . . . . . 150 6.3.3. Distribuciones asociadas al modelo normal est andar . . 160 6.4. Modelos de probabilidad multidimensionales . . . . . . . . . . . 167 6.4.1. Distribuci on multinomial . . . . . . . . . . . . . . . . . 167 6.5. Pr acticas de laboratorio . . . . . . . . . . . . . . . . . . . . . . 174 6.6. Cuestiones y problemas . . . . . . . . . . . . . . . . . . . . . . 179 Bloque tem atico III: Teor a de muestras 183 6.4.2. Distribuci on normal multivariante . . . . . . . . . . . . 170
Manuales Uex 11
7.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 7.2. Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . 186 7.3. Distribuci on en el muestreo de la media muestral con varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 7.4. Distribuci on en el muestreo de la cuasivarianza muestral . . . . 196 7.5. Distribuci on en el muestreo de la media muestral con varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 7.6. Distribuci on en el muestreo de la diferencia de dos medias muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 7.6.1. Muestras aleatorias simples independientes . . . . . . . 200 7.6.2. Muestras aleatorias relacionadas . . . . . . . . . . . . . 202 7.7. Distribuci on en el muestreo del cociente de dos cuasivarianzas muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 7.8. Pr acticas de laboratorio . . . . . . . . . . . . . . . . . . . . . . 204 7.9. Cuestiones y problemas . . . . . . . . . . . . . . . . . . . . . . 207 Bloque tem atico IV: Estad stica inferencial 8. Introducci on a la Teor a de Estimaci on 211 213
8.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 8.2. Estimaci on puntual de la media y la varianza . . . . . . . . . . 215 8.3. Estimaci on por intervalo de la media . . . . . . . . . . . . . . . 217 8.3.1. Con varianza conocida . . . . . . . . . . . . . . . . . . . 218 8.3.2. Con varianza desconocida . . . . . . . . . . . . . . . . . 220 8.4. Estimaci on por intervalo de la varianza . . . . . . . . . . . . . . 223 8.5. Estimaci on por intervalo del cociente de varianzas . . . . . . . 224 8.6. Estimaci on por intervalo de la diferencia de medias . . . . . . . 227 8.6.1. Muestras aleatorias simples independientes . . . . . . . 227 8.6.2. Muestras aleatorias relacionadas . . . . . . . . . . . . . 229 8.7. Pr acticas de laboratorio . . . . . . . . . . . . . . . . . . . . . . 231 8.8. Cuestiones y problemas . . . . . . . . . . . . . . . . . . . . . . 234
Manuales Uex 12
9.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 9.2. Test de hip otesis para la media . . . . . . . . . . . . . . . . . . 244 9.2.1. Con varianza conocida . . . . . . . . . . . . . . . . . . . 244 9.2.2. Con varianza desconocida . . . . . . . . . . . . . . . . . 248 9.3. Test de hip otesis para la varianza . . . . . . . . . . . . . . . . . 250 9.4. Test de hip otesis de igualdad de varianzas . . . . . . . . . . . . 252 9.5. Test de hip otesis para la diferencia de medias . . . . . . . . . . 255 9.5.1. Muestras aleatorias simples independientes . . . . . . . 256 9.5.2. Muestras aleatorias relacionadas . . . . . . . . . . . . . 258 9.6. Test de hip otesis de independencia . . . . . . . . . . . . . . . . 259 9.7. Test de hip otesis sobre la distribuci on 9.7.1. Caso discreto . . . . . . . . . . 9.7.2. Caso continuo . . . . . . . . . . 9.8. Pr acticas de laboratorio . . . . . . . . 9.9. Cuestiones y problemas . . . . . . . . Bibliograf a b asica Ap endices A. Tablas estad sticas B. Variaciones y combinaciones C. Cifras signicativas Indice alfab etico Lista de s mbolos y notaci on Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 262 263 265 268 271 273 273 281 285 287 291 294
Manuales Uex 13
Tema 0 Preliminares
0.1. Introducci on
Con el n de conocer ciertos valores de inter es, todo trabajo topogr aco requiere de un proceso de medici on de magnitudes, generalmente distancias y/o a ngulos. Despu es de procesar las mediciones, no determinamos los valores de inter es, pues estos son siempre desconocidos, sino m as bien proporcionamos aproximaciones a ellos. Esto es debido a que el proceso de medici on involucra la presencia de errores. El estudio de estos errores nos permite proporcionar mejores aproximaciones de los valores desconocidos. A continuaci on clasicamos los errores implicados en un proceso de medici on, seg un su naturaleza y origen, y determinamos el marco adecuado para analizarlos.
0.2.
Como hemos comentado anteriormente, en general, en el proceso de medici on de una magnitud no determinamos el valor verdadero de dicha magnitud. M as bien proporcionamos una aproximaci on a dicho valor a partir de las mediciones namos error y a las mediciones realizadas observaciones directas. Observemos que como el verdadero valor de la magnitud es desconocido, el error asociado a una medici on no es cuanticable. Sin embargo, podemos clasicar los errores atendiendo a su origen y a su naturaleza. Teniendo en cuenta su origen
Manuales Uex 1
Manuales Uex 2
estudio construimos un intervalo para el verdadero valor de la magnitud de inter es. El grado de conanza para que dicho intervalo contenga al verdadero valor depende de la incertidumbre de los errores y de la amplitud de dicho intervalo. Asimismo, el estudio de la incertidumbre en la medici on es u til para valorar el error asociado a una magnitud que se obtiene de manera indirecta
0.3.
Como hemos comentado, la presencia del error aleatorio en el proceso de medici on implica cierta incertidumbre en el valor de la medici on obtenida en cada realizaci on. El estudio de dicha incertidumbre es fundamental para valorar y predecir el resultado de la medici on. El marco adecuado para este estudio lo proporciona la Probabilidad y la Estad stica. Adem as, este marco no s olo es u til para estudiar los errores aleatorios involucrados en un proceso de medici on sino para estudiar la incertidumbre presente en otras situaciones pr acticas de naturaleza distinta. A continuaci on, proporcionamos las deniciones que nos conducen a establecer el marco de trabajo de la Probabilidad y la Estad stica, en un contexto m as general que el de los errores aleatorios de un proceso de medici on. En t erminos generales, denominamos poblaci on al conjunto de elementos (sujetos, objetos, entidades abstractas,...) de la misma naturaleza que presentan uno o varios caracteres comunes susceptibles de ser medidos o clasicados. Ejemplos de poblaciones pueden ser el conjunto de mediciones de una cierta magnitud, el conjunto de instrumentos de medida disponibles para realizar una medici on, el conjunto de redes topogr acas o el conjunto de v ertices geod esicos que intervienen en un trabajo topogr aco. A los elementos de la poblaci on los denominamos individuos o unidades experimentales. Atendiendo a la naturaleza de los caracteres, los clasicamos en cualitativos
modalidades que son exhaustivas y excluyentes, es decir, cada unidad experimental es clasicada en una y s olo en u nica categor a. Ejemplos de caracteres cualitativos son el tipo de instrumento de medida, con las categor as anal ogico
Manuales Uex 3
y cuantitativos. Un car acter cualitativo indica una cualidad de las unidades experimentales. Estas son clasicadas, atendiendo al car acter, en categor as o
Manuales Uex 4
Manuales Uex 5
Poblacin Carcter X
Figura 1: Marco apropiado para analizar un experimento aleatorio asociado a un car acter X .
0.4.
Ejemplo
A continuaci on, exponemos brevemente a modo de ejemplo el estudio asociado a un proceso de medici on. Observemos que este estudio es la consecuencia directa de aplicar los m etodos y t ecnicas que desarrollamos en los siguientes temas. Fijando ideas, suponemos que estamos interesados en determinar la distancia en metros entre dos puntos. Dado que dicha distancia es desconocida, utilizamos un distanci ometro con apreciaci on en mil metros para aproximarla. Si medimos dicha distancia dos veces, una vez eliminados los errores sistem aticos, es muy probable a un que obtengamos dos mediciones diferentes, debido a la presencia de errores aleatorios. Por tanto, la medici on de dicha distancia es un experimento aleatorio asociado a un car acter cuantitativo continuo medido en escala num erica. Las unidades experimentales son mediciones. Dado que el n umero de mediciones es innitas (a priori), con el n de aproximar el comportamiento de las mediciones, registramos 25 observaciones de las mismas. Estas observaciones constituyen nuestra muestra. Notemos que para obtener un conjunto de mediciones representativos tenemos que aplicar t ecnicas de Muestreo Estad stico. Una vez registrados los datos, realizamos un estudio descriptivo, con el n de ordenar, representar y resumir la informaci on de las mediciones
Manuales Uex 6
observadas. Dicho estudio se concreta en una tabla de frecuencias (tabla de la izquierda del Cuadro 1), un histograma (gr aco de la izquierda de la Figura 2) y valores de medidas caracter sticas (tabla de la derecha del Cuadro 1). Las explicaciones de los mismos son dadas en el Ejemplo 1.3. Solamente, notemos que 36.145, el valor de la media aritm etica de los 25 mediciones, es
Distancia
Fr. absoluta
Datos originales
(36.135, 36.139] (36.139, 36.143] (36.143, 36.147] (36.147, 36.151] (36.151, 36.155]
2 7 10 5 1
Total
25
Cuadro 1: Tabla de frecuencias (tabla de la izquierda) y valores de medidas caracter sticas (tabla de la derecha) para el conjunto de mediciones consideradas en el Apartado 0.4.
36.135
36.140
36.145
36.150
36.155
0 36.130
20
40
60
80
100
10
36.135
36.140
36.145
36.150
36.155
36.160
Figura 2: Histograma (gr aco de la izquierda) y modelo de probabilidad te orica (gr aco de la derecha) para el conjunto de datos considerados en el Apartado 0.4. obtenido como aplicaci on del m etodo num erico conocido por m nimos cuadrados para el ajuste de observaciones. As , este valor representa al conjunto de las mediciones observadas. Por otro lado, haciendo uso de la Teor a de la Probabilidad, en el gr aco de la derecha de la Figura 2, mostramos un modelo te orico para explicar la incertidumbre en la medici on. Observemos que este comportamiento es parecido al obtenido para el conjunto de 25 mediciones, pues este representa a todas las mediciones.
Manuales Uex 7
Manuales Uex 8
Manuales Uex 9
Como hemos comentado, la estad stica descriptiva es la parte de la Estad stica encargada de estudiar m etodos, t ecnicas y procedimientos destinados a ordenar, describir y analizar un conjunto de datos. Para tal n y de manera general organizamos el conjunto de datos a trav es de una tabla, lo representamos mediante uno o varios gr acos y resumimos su informaci on en medidas que describen ciertas caracter sticas de los mismos. En este tema, estudiaremos c omo construir tablas, gr acos y calcular medidas caracter sticas apropiadas para analizar descriptivamente un conjunto de datos procedentes de la medici on u observaci on de un u nico car acter. Dicho estudio depende de la naturaleza del
ahora, supondremos que hemos observado un determinado car acter, cualitativo o cuantitativo, en n elementos de una poblaci on, lo que constituye una muestra de tama no n.
Manuales Uex 11
1.2.
Tablas de frecuencias
En general, si el tama no de la muestra es elevado, la simple secuencia de los datos observados no proporciona informaci on sobre el comportamiento de los mismos. En cambio, podemos extraer esta informaci on organizando los datos en una tabla denominada tabla de frecuencias. En ella presentamos los datos agrupados en clases, que para un car acter cualitativo son sus categor as y para un car acter cuantitativo son los valores num ericos o intervalos que los contengan. En cualquier caso, las clases consideradas tienen que ser exhaustivas y excluyentes, es decir, cada dato es clasicado en una y solamente en una clase. A cada clase, asociamos la frecuencia absoluta que es el n umero de veces que aparece dicha clase en el conjunto de datos observados. Como las clases son exhaustivas y excluyentes, la suma total de las frecuencias absolutas coincide con el n umero de datos en la muestra. Para conocer la representaci on global de una clase en el conjunto de datos, incorporamos su frecuencia relativa que es la proporci on de apariciones de la clase en el conjunto de datos observados. La calculamos como la frecuencia absoluta dividido entre el tama no de la muestra. Como las clases son exhaustivas y excluyentes, la suma total de las frecuencias relativas es uno. Dado que es m as usual hablar en t erminos de porcentaje, en ocasiones, las frecuencias relativas son reemplazadas por las frecuencias porcentuales, es decir, las frecuencias relativas multiplicadas por cien. A la clase con mayor frecuencia la denominamos clase modal o moda, es decir, la clase m as representativa en la muestra. En ocasiones hay m as de una moda en la muestra. Ejemplo 1.1 Supongamos que para las mediciones de un trabajo topogr aco de gran envergadura han participado tres equipos de campo, E 1, E 2 y E 3, de modo que cada medida ha dependido de un s olo equipo. Con el n de conocer la distribuci on de participaci on de los distintos equipos de trabajo, hemos
Manuales Uex 12
seleccionado 20 mediciones distintas y hemos anotado el grupo de trabajo que ha tomado dicha medida, obteni endose la secuencia E3, E2, E3, E3, E1, E1, E2, E3, E2, E1, E2, E2, E2, E1, E2, E3, E2, E2, E2, E3,
Equipos
Fr. absolutas
Fr. relativas
Fr. porcentuales
E1 E2 E3
4 10 6
20 % 50 % 30 %
Total
20
100 %
Cuadro 1.1: Tabla de frecuencias para el conjunto de datos considerado en el Ejemplo 1.1. que constituye el conjunto de datos. En esta situaci on, la poblaci on bajo estudio es el conjunto de medidas realizadas en el trabajo topogr aco. Para cada medida, la caracter stica a estudiar es equipo de campo que ha tomado dicha medida. Este es un car acter cualitativo medido en escala nominal con categor as E 1, E 2 y E 3, que son exhaustivas y excluyentes, pues en cada medida s olo participa uno de los tres equipos considerados. Tomando estas categor as como las clases de la tabla de frecuencias, en el Cuadro 1.1 mostramos la organizaci on de las 20 observaciones de la muestra. Teniendo en cuenta la tabla de frecuencias deducimos que el equipo E 2 ha participado en la toma de la mitad de las 20 medidas de la muestra. El resto de las medidas de la muestra han sido tomadas entre los equipos E 1 y E 3, siendo algo superior la implicaci on del equipo E 3. Notemos que, en esta situaci on, podemos reproducir el conjunto de datos, salvo el orden en que fueron tomados, a partir de la tabla de frecuencias. Como se observa el elemento fundamental de una tabla de frecuencias son las clases y no los valores del conjunto de datos. Cuando el car acter es medido en escala ordinal o num erica, podemos establecer un orden en las clases. Teniendo lada como el n umero de veces que aparece en el conjunto de datos las clases inferiores o iguales a dicha clase. De manera an aloga, denimos la frecuencia relativa acumulada como la proporci on de apariciones en el conjunto de datos de las clases inferiores o iguales a la jada. Como las clases son exhaustivas y
Manuales Uex 13
en cuenta este orden, para cada clase denimos la frecuencia absoluta acumu-
No de v ertices
Fr. absolutas
1 2 3 4 5 6
3 8 9 6 3 1
3 11 20 26 29 30
Cuadro 1.2: Tabla de frecuencias para el conjunto de datos considerados en el Ejemplo 1.2. excluyentes, la frecuencia absoluta acumulada de la u ltima clase es el tama no de la muestra y su frecuencia relativa acumulada es la unidad. Ejemplo 1.2 Supongamos que para el conjunto de redes topogr acas que intervienen en un trabajo topogr aco estamos interesados estudiar el n umero de v ertices geod esicos que constituyen cada red topogr aca. Para tal n, seleccionamos 30 redes topogr acas, obteni endose la secuencia 2, 3, 4, 3, 5, 5, 4, 4, 3, 2, 2, 5, 6, 4, 1, 2, 3, 2, 3, 2, 1, 2, 4, 2, 3, 1, 3, 4, 3, 3, que constituye el conjunto de datos. En esta situaci on, la poblaci on bajo estudio es el conjunto de redes topogr acas que intervienen en el trabajo topogr aco. La caracter stica a estudiar de cada red topogr aca es el n umero de v ertices geod esicos que constituye la red, que tiene naturaleza cuantitativa discreta medida en escala num erica. Los datos recogidos lo organizamos en la tabla de frecuencias mostrada en el Cuadro 1.2, donde las clases son los valores del conjunto de datos. Observamos que el rango de valores del n umero de v ertices para las redes topogr acas de la
Manuales Uex 14
muestra oscila entre 1 y 6. Adem as, el 77 % de las redes topogr acas observadas presentan de 2 a 4 v ertices geod esicos. Dicho porcentaje lo obtenemos como diferencia de las frecuencias relativas acumuladas asociadas a las clases 1 y 4. El resto de redes topogr acas se distribuyen de manera casi uniforme entre las que tienen uno y las que tiene m as de 4 v ertices. Notemos que a partir del
Ejemplo 1.3 Supongamos que estamos interesados en determinar la distancia en metros entre dos puntos. Para ello utilizamos un distanci ometro con apreciaci on en mil metros y registramos las siguientes 25 mediciones
Manuales Uex 15
Medici on
Fr. absoluta
Fr. relativa
(36.135, 36.139] (36.139, 36.143] (36.143, 36.147] (36.147, 36.151] (36.151, 36.155]
2 7 10 5 1
Total
25
Cuadro 1.3: Tabla de frecuencias para el conjunto de datos considerados en el Ejemplo 1.3. 36.144, 36.147, 36.145, 36.145, 36.145, 36.141, 36.137, 36.147, 36.148, 36.146, 36.142, 36.143, 36.152, 36.142, 36.143, 36.148, 36.147, 36.141, 36.150,36.146, 36.143, 36.144, 36.148, 36.148, 36.138, que constituye el conjunto de datos. En esta situaci on, la poblaci on a considerar es el conjunto de mediciones de la distancia de inter es realizadas con un distanci ometro y la caracter stica a estudiar es la medida observada, que es un car acter cuantitativo continuo medido en escala num erica. A priori, el valor num erico de cada medici on deber a de ser distinto al del resto, pero debido a la apreciaci on del instrumento, algunas mediciones toman el mismo valor. En este caso hemos registrado 12 valores distintos. Teniendo en cuenta que el tama no de la muestra es 25, recomendamos agrupar los datos en 5 categor as. Como el valor m nimo es 36.137 y el m aximo 36.152, podemos considerar el intervalo global denido por los valores 36.135 y 36.155. La amplitud de este intervalo es 0.020 y por tanto, cada intervalo que dene una clase tiene una amplitud de 0.004. Teniendo en cuenta la tabla de frecuencias mostrada en el Cuadro 1.3, deduci-
Manuales Uex 16
mos, por ejemplo, que en el intervalo denido por los valores 36.139 y 36.151 se encuentra el 88 % de las mediciones de la muestra. Adem as, en los dos primeros intervalos se acumulan el 36 % de los valores observados mientras que s olo un 24 % en los dos u ltimos.
1.3.
Gr acos
Las tablas de frecuencias proporcionan de manera eciente y sencilla una ordenaci on de los datos. Sin embargo, la obtenci on de conclusiones a partir de ellas puede entra nar cierta dicultad. En cambio, normalmente un gr aco presenta de forma clara la informaci on relevante contenida en una muestra, donde el a rea de la gura asociada a cada clase es proporcional a la frecuencia de esta, absoluta o relativa. Cuando a cada clase le asignamos un rect angulo, el gr aco es un diagrama de barras. Un diagrama de barras donde las clases son intervalos en que agrupamos los valores del car acter los denominamos histograma. En un histograma los rect angulos aparecen pegados unos a otros, atendiendo a la continuidad de los intervalos. Un diagrama de barras donde representamos las frecuencias acumuladas y ordenamos las categor as de manera decreciente atendiendo a las frecuencias de las mismas, lo denominamos diagrama de Pareto. Por otro lado, cuando a cada clase le asignamos un sector del c rculo con a ngulo proporcional a la frecuencia absoluta o relativa de dicha clase, el gr aco es un diagrama de sectores. Finalmente, cuando presentamos los datos de la muestra mediante el empleo de los d gitos que constituyen los valores de los datos, lo denominamos diagrama de tallo-hoja. Para ello, cada dato num erico los dividimos en dos partes: los d gitos principales que se convierten en el tallo, y los d gitos posteriores que se convierten en las hojas. Los tallos lo escribimos a lo largo del eje principal, y cada dato est a asociado a una hoja. La impresi on resultante es la de un histograma horizontal.
ra caracteres cualitativos y caracteres cuantitativos discretos, mientras que el histograma y el diagrama de tallo-hoja son apropiados para caracteres cuantitativos. Observemos que para un mismo car acter es posible realizar varios gr acos. En esa situaci on elegimos aquel que mejor represente la informaci on
Manuales Uex 17
10
E1
8
E2
E3
E1
E2
E3
Figura 1.1: Diagrama de barras (gr aco de la izquierda) y un diagrama de sectores (gr aco de la derecha) para el conjunto de datos considerados en el Ejemplo 1.1. relevante que contiene la muestra y que mejor complemente a la tabla de frecuencias. Ejemplo 1.4 A continuaci on mostramos gr acos correspondientes a los ejemplos desarrollados en la secci on anterior. Para el conjunto de datos considerado en el Ejemplo 1.1 hemos realizado un diagrama de barras y un diagrama de sectores, los cuales los mostramos en la Figura 1.1. Notemos que el gr aco que mejor reeja que el equipo E 2 ha llevado a cabo la mitad de las mediciones es el diagrama de sectores. Para el conjunto de datos considerado en el Ejemplo 1.2 hemos realizado un diagrama de barras (gr aco de la izquierda de la Figura 1.2), un diagrama de Pareto (gr aco central de la Figura 1.2) y un diagrama tallo-hoja (tabla de la izquierda del Cuadro 1.4). Como podemos observar el diagrama de tallo-hoja es tan ilustrativo como el diagrama de barras. En esta situaci on, a partir de ellos podemos obtener la tabla de frecuencias del conjunto de datos. Teniendo en cuenta el diagrama de Pareto deducimos que casi en el 80 % de las redes topogr acas intervienen de 2 a 4 v ertices, siendo estos n umeros de v ertices los
Manuales Uex 18
m as numerosos en el conjunto de redes topogr acas observadas. Finalmente, para el conjunto de datos considerado en el Ejemplo 1.3 hemos realizado un histograma (gr aco de la izquierda de la Figura 1.2) y un diagrama de tallo-hoja (tabla de la derecha del Cuadro 1.4). Observemos que, en esta
1.0
0.8
0.6
0.4
0.2
0.0
0 36.135
10
36.140
36.145
36.150
36.155
Figura 1.2: Diagrama de barras (gr aco de la izquierda) y diagrama de Pareto (gr aco central) para el conjunto de datos considerado en el Ejemplo 1.2 e histograma (gr aco de la derecha) para el conjunto de datos considerados en el Ejemplo 1.3.
Tallo Hoja Tallo Hoja
1 2 3 4 5 6
Cuadro 1.4: Diagramas de tallo-hoja para el conjunto de datos considerado en el Ejemplo 1.2 (tabla de la izquierda) y en el Ejemplo 1.3 (tabla de la derecha). situaci on, podemos reconstruir el conjunto de datos originales a partir del diagrama de tallo-hoja, salvo el orden en la observaci on de los mismos. En general los comentarios asociados a los gr acos son los mismos que los realizados al describir las tablas de frecuencias. Sin embargo, en algunos casos, podemos ilustrar m as claramente algunos aspectos. En ocasiones, una mala representaci on de los datos puede conducir a conclupondientes al Ejemplo 1.1. El gr aco de la izquierda es correcto. En cambio, el gr aco de la derecha es confuso, pues el area del rect angulo correspondiente al equipo de trabajo E 3 es m as del doble que el area del rect angulo correspondiente al equipo de trabajo E 1, mientras que esa relaci on no se mantiene
Manuales Uex 19
siones err oneas. En la Figura 1.3 mostramos dos diagramas de barras corres-
10
E1
E2
E3
10
E1
E2
E3
Figura 1.3: Diagramas de barras para el conjunto de datos considerado en el Ejemplo 1.1. en sus frecuencias absolutas, 4 y 6, respectivamente. Ello se debe a tomar el 3 como valor m nimo en el eje de ordenada.
1.4.
Como complemento a las tablas y a los gr acos, resumiremos la informaci on contenida en la muestra en valores que describen ciertas caracter sticas sobre el comportamiento de los datos. A dichos valores los denominamos medidas caracter sticas muestrales y se calcular an sobre conjunto de datos de naturaleza cuantitativa. Atendiendo a la caracter stica que describen las agrupamos en medidas de centralizaci on, medidas de posici on, medidas de dispersi on y medidas de forma. Las medidas de centralizaci on tienen por objeto proporcionar valores en torno a los cuales se encuentran las observaciones muestrales. En cambio, las medidas de posici on permiten estudiar la posici on relativa de los datos dentro de su conjunto. Finalmente, la concentraci on de los datos se reeja en las medidas de dispersi on y el estudio de la distribuci on de los datos en las medidas de forma. Los valores que proporcionan estas medidas son valores num ericos que dependen del conjunto de datos y no lo determinan de manera un voca, es decir, dos conjuntos de datos diferentes pueden tener la misma medida caracter stica. Por ello, de un conjunto de datos estudiamos varias medidas caracter sticas, con el n de obtener la m axima informaci on sobre el comportamiento de los mismos y que los resuman adecuadamente, obviamente, no con la perfecci on que se alcanza con el conocimiento de todos los valores originales.
Manuales Uex 20
1.4.1.
Medidas de centralizaci on
La medida de centralizaci on m as com un es la media aritm etica muestral, la denotamos por x y la denimos como el promedio de los valores de la muestra, xi . n A partir de su denici on tenemos que las desviaciones positivas y negativas de x=
i=1
es decir
los datos con respecto al valor de la media aritm etica muestral se equilibran, es decir,
n n (xi x) = xi nx = 0, i=1 i=1
y por tanto podemos decir que la media aritm etica muestral es una medida de centralizaci on, pues representa el centro geom etrico para el conjunto de datos. Adem as, si los valores del conjunto de datos son ceros y unos, entonces la media aritm etica muestral representa la proporci on de unos en el conjunto de datos. Para el conjunto de datos considerados en el Ejemplo 1.3, tenemos que x= 36.144 + 36.147 + . . . + 36.148 + 36.138 = 36.1448 m., 25
es decir, el valor medio de las 25 mediciones realizadas. Como el n umero de cifras signicativas (ver Ap endice C) de la medida caracter stica debe ser el mismo que el de los valores observados, en esta situaci on 5 cifras signicativas, media aritm etica muestral est a medida en las mismas unidades que la variable y que utiliza toda la informaci on que contiene cada dato. Por este motivo, tiene el incoveniente de verse afectada por la presencia de datos at picos o an omalos, es decir, valores que son extremadamente grandes o peque nos en relaci on al
Manuales Uex 21
Por tanto, la media aritm etica muestral es una medida de centralizaci on apropiada para describir datos homog eneos. Para un conjunto de datos que presente un comportamiento heterog eneo, originado por ejemplo por la presencia de datos at picos, una medida de centralizaci on apropiada es la mediana muestral. La denimos como aquel valor que, supuesto los datos ordenados de menor a mayor, deja igual n umero de valores a su izquierda que a su derecha. Si el n umero de datos es impar tomamos el valor central de los datos. Si el n umero de datos es par la calculamos como la media de los valores centrales. Es decir, si x1 x2 . . . xn entonces la mediana es x(n+1)/2 si n es impar (xn/2 + xn/2+1 )/2 si n es par. Ejemplo 1.5 Para el conjunto de datos considerado en el Ejemplo 1.3, n = 25 es impar y por tanto la mediana es el dato que ocupa la posici on 13=(25+1)/2, una vez ordenados estos de menor a mayor. Dicha ordenaci on puede ser obtenida a partir del tallo-hoja (ver Cuadro 1.4), de donde deducimos que 36.145 m es la mediana de las mediciones tomadas. En esta ocasi on coincide con el valor de la media aritm etica muestral, consecuencia de la homogeneidad de los datos. Por otro lado, para el conjunto de datos considerado en el Ejemplo 1.2, n = 30 es par y por tanto la mediana es el valor medio de los datos que ocupa las posiciones 15=30/2 y 16=30/2+1, una vez ordenados estos de menor a
Manuales Uex 22
mayor. En este caso, teniendo en cuenta las frecuencias absolutas acumuladas de la tabla de frecuencias (ver Cuadro 1.2), tenemos que x15 = x16 = 3, pues las frecuencias absolutas de los valores num ericos 2 y 3 son 11 y 20, respectivamente.
y es apropiada cuando hay presencia de valores at picos de gran magnitud. En cambio, cuando hay presencia de valores at picos de peque na magnitud, la medida arm onica es apropiada. La denimos como la inversa de la media aritm etica muestral de las inversas de las observaciones, es decir 1 . n 1 1 n x i=1 i Para el Ejemplo 1.3, tenemos que ambas medias coinciden con el valor de la que se reeja en su histograma. Como hemos comentado anteriormente, la medida de centralizaci on m as utilizada es la media aritm etica muestral. Por ello, a partir de ahora nos referiremos
Manuales Uex 23
media aritm etica muestral. Esto muestra la homogeneidad de los datos, hecho
pues nos indica la aportaci on relativa de cada dato al valor nal. Es f acil obtener la media muestral como una media ponderada donde todos los datos tienen igual peso. La media ponderada es de utilidad para calcular la media aritm etica muestral de los datos a partir de una tabla de frecuencias donde cada clase es un u nico valor num erico, siendo los pesos las frecuencias absolutas. Como ilustraci on, para el conjunto de datos del Ejemplo 1.2 deducimos a partir del Cuadro 1.2 que x= 1 3 + 2 8 + ... + 5 3 + 6 1 = 3.03 v ertices. 3 + 8 + ... + 3 + 1
Observemos que si los datos est an tabulados y alguna clase contiene m as de un valor num erico, es posible denir las medidas de centralizaci on anteriores, teniendo en cuenta que al agrupar los datos se ha perdido informaci on y por tanto los valores que proporcionan las medidas caracter sticas ser an pr oximas a las obtenidas si se conocieran los valores originales de todos los datos.
1.4.2.
Medidas de posici on
Como la mediana muestral es una medida de centralizaci on que deja igual n umero de valores a su izquierda que a su derecha, entonces es un valor que se posiciona en la parte central del conjunto de datos, una vez que estos est an ordenados de menor a mayor. Como generalizaci on del concepto de mediana denimos el cuantil muestral de orden p (0 p 1) como el valor que deja a lo sumo np datos, el 100p %, a su izquierda y a lo sumo n(1 p) datos, el
Manuales Uex 24
100(1 p) %, a su derecha, una vez que esos est an ordenados de menor a mayor. posiciones en el conjunto de datos. Atendiendo al valor de p, destacamos los cuartiles y los percentiles.
Por tanto, los cuantiles nos proporcionan valores que ocupan determinadas
el dato que ocupa la posici on [nj/100], es decir, x[nj/100] , no deja a lo sumo nj/100 datos a su izquierda, pero s el siguiente dato, es decir, el que ocupa la posici on [nj/100] + 1. Adem as, x[nj/100]+1 es el primer valor num erico que lo verica. Por otro lado, si nj/100 es un n umero entero, entonces cualquier valor comprendido entre x[nj/100] y x[nj/100]+1 verica la denici on de cuantil muestral de orden j/100. Suponiendo uniformidad del car acter entre estos dos valores, determinamos el valor del percentil interpolando. Para j = 50, el c alculo del cuantil muestral de orden 0.5 coincide con el descrito para el c alculo de la mediana, pues 50/100 = 1/2 e imponer que n/2 sea entero equivale a que n sea par.
trav es del tama no de la muestra. Por tanto los cuantiles son medidas robustas, es decir, su valor no est a fuertemente inuenciado por la presencia de valores
1 La
parte entera de un n umero positivo z es el mayor n umero natural menor o igual que
z.
Manuales Uex 25
Observemos que las posiciones obtenidas s olo dependen del conjunto de datos a
Manuales Uex 26
En la Figura 1.4 mostramos geom etricamente el procedimiento de interpolaci on seguido. Observemos que, en esta situaci on, debido al efecto del agrupamiento en clases la aproximaci on diere del resultado obtenido anteriormente en el Ejemplo 1.6 utilizando los datos originales.
0.3
0.4
0.5
0.6
0.7
0.8
36.143
36.144
36.145
36.146
36.147
Figura 1.4: Interpretaci on geom etrica del procedimiento de interpolaci on seguido en el Ejemplo 1.7.
x1
x2
x3
x4
x5
x1
x2
x3
x4
x5
Figura 1.5: Conjuntos de datos con las mismas media y mediana muestral y diferente comportamiento en la dispersi on.
1.4.3.
Medidas de dispersi on
Las medidas de centralizaci on y posici on no determinan un vocamente a un conjunto de datos, es decir, no describen todas las caracter sticas del mismo. Como mostramos en la Figura 1.5, dos conjuntos de datos pueden tener las mismas media y mediana muestral y ser muy diferentes entre s atendiendo a la dispersi on de las observaciones. Las medidas de dispersi on indican lo agrupado o disperso que se encuentran los datos de la muestra. Una medida de f acil c alculo es el rango o amplitud de los datos que lo denimos como la distancia entre el valor m aximo y el valor m nimo de la muestra. Es un valor no negativo que se expresa en las mismas unidades que los datos originales. Dado que su valor depende u nicamente del dato mayor y del menor, est a fuertemeninformaci on sobre c omo de dispersos o agrupados est an el resto de los datos de la muestra. Por ello es una medida que suele venir acompa nada del rango intercuart lico que lo denimos como la distancia entre el tercer y el primer cuartil, es decir, la amplitud donde se distribuye al menos el 50 % de los datos te inuenciado por la presencia de valores at picos. Adem as, no proporciona
Manuales Uex 27
Observemos que la varianza proporciona un valor no negativo, nulo si y s olo si todos los valores de los datos son iguales. Para datos con la misma magnitud, cuanto mayor sea su valor, indicar a mayor grado de dispersi on de los datos a su media muestral, teniendo presente que est a fuertemente inuenciada por la presencia de valores at picos en un grado mayor a lo que est a la media muestral. Dado que tomamos las desviaciones al cuadrado, la varianza est a expresada en unidades que son el cuadrado de las unidades de las observaciones. Por ello
Manuales Uex 28
denimos la desviaci on t pica muestral como la ra z cuadrada de la varianza muestral, que se expresa en las mismas unidades que los datos. Para el c alculo de la varianza, y por ende de la desviaci on t pica, requerimos conocer previamente el valor de la media muestral, que de no ser un valor exacto, tenemos que redondearlo. Este redondeo provocar a un error que se propagar a al valor
n i=1
(xi x)2 =
Por tanto, para obtener el valor de la varianza muestral s olo es necesario calcular la suma de los valores observados y la suma de los valores al cuadrado. Ejemplo 1.9 Para el conjunto de datos considerado en el Ejemplo 1.2, tenemos que
30 i=1
xi = 2 + . . . + 3 = 91 v ertices y
30 i=1
on t pica es 1.25 v ertices. y por tanto, la varianza es 1.56 v ertices2 y la desviaci Asimismo, para el conjunto de datos del Ejemplo 1.3, tenemos que
25 i=1
xi = 903.620 m y
25 i=1
2 x2 i = 32661.160 m ,
1 primeros datos de la misma, somos capaces de deducir el dato n- esimo. Este es el motivo por el que en la expresi on de la varianza muestral es usual cuasivarianza muestral y la denotamos por s2 . Asimismo, a su ra z cuadrada la denominamos cuasidesviaci on t pica y la denotamos por s. Observemos que si n es sucientemente grande, entonces la varianza y cuasivarianza muestral varianza a la cuasivarianza. Para el Ejemplo 1.3 la varianza es 0.000012 m2 y la cuasivarianza es 0.0000125 m2 . Como veremos en el bloque tem atico III, la cuasidesviaci on t pica muestral juega un papel fundamental en la estad stica inferencial. dividirla por n 1 en lugar de por n. A esta nueva medida la denominamos
Manuales Uex 29
Manuales Uex 30
Manuales Uex 31
limitada por la posici on del primer y tercer cuartil. Por tanto, en esta caja
Figura 1.6: Diagrama de caja para los datos considerados en el Ejemplo 1.2 (gr aco de la izquierda) y en el Ejemplo 1.3 (gr aco de la derecha). el 25 % de los datos centrales menores en relaci on al 25 % de los datos centrales mayores. En el gr aco de la izquierda de la Figura 1.6 mostramos el diagrama de caja para el Ejemplo 1.2 y el del Ejemplo 1.3 en el gr aco de la derecha. Observemos que en el extremo inferior de la caja trazamos una l nea que se extiende hasta o bien el m nimo de los datos o el menor dato mayor que el cuartil primero menos 1.5 veces el rango intercuart lico. En este u ltimo caso, los datos menores que dicho extremo son representados mediante puntos aislados y los consideraremos como datos at picos, por estar demasiado alejados de la mediana. En los diagramas de caja mostrados en la Figura 1.6, el extremo inferior de la l nea es el valor m nimo de los datos y por tanto no detectan la presencia de valores at picos. De manera similar trazamos una l nea desde el extremo superior de la caja. Concretamente, la l nea se extiende o bien el m aximo de los datos o bien el mayor dato menor que el cuartil primero menos 1.5 veces el rango intercuart lico. Asimismo, en este u ltimo caso, los datos mayores a dicho extremo son representados mediante puntos aislados y los consideraremos como valores at picos, por estar demasiado alejados de la mediana (ver Figura 1.7). En los diagramas de caja mostrados en la Figura 1.6 observamos que la mediana muestral se encuentra en mitad de la caja. Adem as para el gr aco de la derecha el rango donde se encuentran el 25 % de
Manuales Uex
los datos menores es similar que el del 25 % de los datos mayores, lo que nos muestra cierta homogeneidad alrededor de la mediana. Esto no sucede para el gr aco de la izquierda, observ andose cierta asimetr a a valores grandes. Este comportamiento ya lo hab amos detectado en el an alisis del histograma y del diagrama tallo-hoja (ver Figura 1.2 y Cuadro 1.4).
32
36.135
36.140
36.145
36.150
36.155
1.4.4.
Medidas de forma
Aunque la varianza y la meda muestral indican la dispersi on de los datos a la media y mediana muestral, respectivamente, no nos proporcionan informaci on sobre la homogeneidad de la dispersi on alrededor de dichas medidas centrales. El coeciente de asimetr a muestral es una medida de forma que nos indica el grado de asimetr a de los datos alrededor de la media muestral y lo denimos como n
i=1 (xi ns 3
x)3
siendo s la desviaci on t pica muestral del conjunto de datos. De su denici on, de asimetr a tiene signo. Un valor positivo nos indica que las desviaciones
deducimos que el coeciente de asimetr a no depende de las unidades de medida de los datos. Como el numerador puede ser positivo o negativo, el coeciente positivas de los datos a la media son superiores en magnitud a las negativas y por tanto los datos presentan una asimetr a a la derecha o a valores grandes. Por contra un valor negativo nos indica una asimetr a a la izquierda o valores peque nos. Finalmente un valor pr oximo a cero nos indica simetr a de los datos alrededor de la media muestral. Ejemplo 1.12 Para el conjunto de datos considerado en el Ejemplo 1.3, el coeciente de asimetr a muestral es pr oximo a cero, pues como mostramos en el gr aco central de la Figura 1.7, ni el histograma ni el diagrama de caja reejan asimetr a. En cambio, el gr aco de la izquierda de la Figura 1.7 muestra un conjunto de datos para la situaci on descrita en el Ejemplo 1.3 donde el coeciente de asimetr a muestral es negativo. Asimismo, en el gr aco de la derecha de la Figura 1.7 muestra un conjunto de datos donde el coeciente de asimetr a muestral es negativo. Adem as, observamos la presencia de un valor at pico. A partir del conocimiento de la media aritm etica y la mediana podemos predecir la asimetr a de los datos. Si la media aritm etica y la mediana est an pr oximas, este hecho nos indica cierta simetr a, pues en promedio los valores grandes se compensan con los menores. En cambio, si la media aritm etica es superior a la mediana, este hecho indica la presencia de valores mayores que
Manuales Uex 33
10
36.130
36.135
36.140
36.145
36.150
36.155
36.135
36.140
36.145
36.150
36.155
0 36.135
36.140
36.145
36.150
36.155
36.160
36.150
36.150
36.145
36.140
36.145
36.135
36.140
Figura 1.7: Comportamiento del histograma y diagrama de caja de los conjuntos de datos considerados en el Ejemplo 1.12. dominan a los menores y por tanto los datos presenta una asimetr a a la derecha. En caso contrario, los datos presentan una asimetr a a la izquierda, pues los valores menores dominan a los mayores.
1.4.5.
Transformaci on de datos
En ocasiones, nos interesa trabajar con un conjunto de datos que presenten simetr a con respecto a la media muestral. Si esto no sucede, es posible transformarlos de modo que los datos transformados s sean sim etricos. Para asimetr as a la izquierda utilizamos los valores al cuadrado de los datos. Esta transformaci on comprime la escala para valores peque nos y la expande para valores altos, pudi endose corregir as la asimetr a. Por el contrario, cuando los datos presentan una asimetr a a la derecha utilizamos transformaciones que compriman los valores altos y expandan los bajos. Ejemplos t picos de estas transformaciones son la ra z cuadrada, el logaritmo neperiano o la inversa, que corrigen la asimetr a en orden creciente. Al realizar las transformaciones debemos tener cuidado con la presencia de valores que hagan las operaciones
Manuales Uex
34
36.140
36.145
36.150
36.155
36.160
3.2
1 e03
3.4
6 e04
3.6
3.8
2 e04
4.0
Figura 1.8: Diagrama de caja de los datos transformados considerados en el Ejemplo 1.13. inviables o cambien de signo a los datos. En esos casos sumamos una cantidad a todos los datos de forma que esto no ocurra. Ejemplo 1.13 Para los conjuntos de datos considerados en el Ejemplo 1.12 en los que hemos detectado cierta asimetr a, aplicamos transformaciones para corregirla. Concretamente, para el conjunto de datos con asimetr a a la izquierda Figura 1.8 mostramos el diagrama de caja de los datos transformados, donde observamos que la asimetr a se ha corregido. Por otro lado, para el conjunto de y 1/(x 36.120). En el gr aco central y en el gr aco de la derecha de la Figura 1.8 mostramos los diagramas de caja de los datos transformados con dichas pero s lo hace la segunda. Notemos que, en general, las medidas caracter sticas de los datos transformados no son las transformadas de las medidas caracter sticas de los datos originales o funciones de estas. Sin embargo cuando la transformaci on es de tipo lineal, es decir, yi = axi + b, con a, b R e i {1, . . . , n}, s encontramos ciertas relaciones entre las medidas caracter sticas de los datos originales y de de escala. Por ejemplo, si los datos son valores de cierta distancia medida en metros para pasarlos a mil metros lo multiplicamos por 1000, es decir, a=1000. El valor b representa una traslaci on en los datos. Por ejemplo, esto lo utilizamos para eliminar los errores sistem aticos existentes en el proceso de medici on. funciones. Observamos que la primera transformaci on no corrige la asimetr a, datos con asimetr a a la derecha, aplicamos las transformaciones log(x36.120) aplicamos la transformaci on (x 36.120)2 . En el gr aco de la izquierda de la
Manuales Uex 35
25
30
35
40
45
50
55
Datos originales
Datos transformados
Cuadro 1.5: Medidas caracter sticas para los conjuntos de datos considerados en el Ejemplo 1.14. Se verica que la media muestral de los datos transformados es a veces la media aritm etica de los datos originales m as b. La misma relaci on se satisface para la mediana. En cambio, la desviaci on t pica de los datos transformados es el valor absoluto de a por la desviaci on t pica de los datos originales. Esta misma relaci on se satisface para la amplitud, el rango intercuart lico y la meda. Observemos que no dependen del valor de b pues al realizar una traslaci on mantenemos la dispersi on. Finalmente las medidas relativas, como el coeciente de variaci on o el coeciente de asimetr a coinciden en ambos conjuntos de datos, salvo posiblemente el signo. Estas relaciones nos permiten despreocuparnos en cierto sentido de las unidades de medida de los datos, pudi endose utilizar aquellas que nos sea m as sencillas a la hora del c alculo. Ejemplo 1.14 En el Cuadro 1.5 mostramos las medidas caracter sticas del conjunto de datos considerado en el Ejemplo 1.3 y del conjunto de datos transformados por una relaci on lineal, tomando a = 1000 y b = 36000. Observamos las relaciones entre las medias caracter sticas de los datos originales y de los transformados.
Manuales Uex
1.5.
tencias:
Pr acticas de laboratorio
36
Media muestral, geom etrica, arm onica y cuartiles mean(x); prod(x)^{1/length(x)}; 1/mean(1/x); quantile(x)
Manuales Uex 37
stem(x); boxplot(x)
Manuales Uex 38
1.6.
Cuestiones y problemas
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) La desviaci on t pica de un conjunto de datos asociado a un car acter cuantitativo es una medida central expresada en las mismas unidades de medida que los datos. ii) Si las medias aritm eticas muestrales de dos conjuntos de datos distintos son iguales, entonces tambi en lo son las varianzas muestrales. iii) Si en un conjunto de datos asociado a un car acter cuantitativo, al menor de los datos se le resta una unidad, la varianza aumenta. iv) Si en un conjunto de datos asociado a un car acter cuantitativo, al menor de los datos se le resta una unidad, la mediana disminuye.
Manuales Uex 39
Intervalos
Fr. absoluta
Fr. relativa
Total
Cuadro 1.6: Tabla de frecuencias para la situaci on considerada en el Problema 2. v) Si a todos los valores de un conjunto de datos asociado a un car acter cuantitativo le sumamos la misma cantidad, la varianza aumenta. vi) Si un conjunto de datos asociado a un car acter cuantitativo es agrupado en clases, su mediana coincide con la mediana calculada a partir de los datos agrupados. vii) Si el coeciente de asimetr a muestral de un conjunto de datos asociado a un car acter cuantitativo es positivo, entonces la media aritm etica es la mejor medida de centralizaci on. 2. Completar y comentar descriptivamente la tabla de frecuencias mostrada en el Cuadro 1.6, constituida por 6 categor as de amplitud 0.005 que corresponden a 50 mediciones realizadas con un distanci ometro con apreciaci on en mil metros. 3. Discutir razonadamente cu al de los diagramas de caja mostrados en la Figura
Manuales Uex 40
1.9 corresponde a un conjunto de datos con media 4 y coeciente de simetr a negativo. 4. Supongamos que en un trabajo topogr aco estamos interesados en determinar las relaciones de proporcionalidad entre los tipos de mediciones observadas,
Figura 1.9: Diagramas de caja asociados a los tres conjuntos de datos considerados en el Problema 3. sean distancias y angulos. Para tal n hemos seleccionados 20 mediciones registradas en el trabajo y hemos anotado el tipo de medida, obteni endose la secuencia: A, D, D, A, D, A, A, A, D, A, A, D, D, A, A, D, A, D, D, A, donde A denota angulo y D denota distancia. Atendiendo a la naturaleza del car acter, analizar descriptivamente de manera exhaustiva y sintetizada los datos seleccionados, utilizando para ello el software estad stico R. 5. Supongamos que en un trabajo topogr aco de precisi on estamos interesados en determinar las relaciones de proporcionalidad entre los tipos de v ertices geod esicos considerados (Primer, Segundo y Tercer Orden). Para tal n hemos seleccionados al azar 25 v ertices geod esicos registrados en el trabajo y hemos anotado el nivel de los mismos, obteni endose la secuencia: PO, TO, TO, TO, TO, TO, TO, PO, TO, SO, SO, TO, SO, TO, SO, TO, TO, TO, SO, SO, SO, TO, SO, TO, SO. donde PO: Primer Orden, SO: Segundo Orden y TO: Tercer Orden. Atendiendo a la naturaleza del car acter, analizar descriptivamente de manera exhaustiva y sintetizada los datos seleccionados, utilizando para ello el software estad stico R. 6. Supongamos que en un trabajo topogr aco estamos interesados en determinar el n umero de mediciones que dependen de cada uno de los v ertices
Manuales Uex 41
Manuales Uex 42
En el tema anterior hemos supuesto que para cada individuo o unidad experimental observamos un u nico car acter. Sin embargo, lo habitual es observar varios caracteres en cada individuos, obteni endose datos multidimensionales. En esta situaci on, adem as de realizar un estudio descriptivo para cada uno de los caracteres, podemos analizar de manera descriptiva la relaci on o asociaci on entre los valores observados de los distintos caracteres. Para ello, como en el caso de un car acter, la descripci on y an alisis de un conjunto de datos multidimensionales se basa en organizar el conjunto de datos en una tabla, representarlos en gr acos y resumir la informaci on que contienen mediante ciertas medidas caracter sticas. La naturaleza de los caracteres condiciona el tipo de estudio. En lo que sigue, s olo consideramos que observamos dos caracde caracteres sea mayor. As , suponemos que en n individuos observamos dos caracteres, de modo que a cada individuo le asociamos dos valores, uno para cada car acter. Por tanto, el conjunto de datos a analizar est a formado por n vectores bidimensionales, que constituyen la muestra. teres, aunque el estudio se puede generalizar sin dicultad cuando el n umero
Manuales Uex 43
2.2.
Tablas de contingencia
Como en el caso de un solo car acter, para construir una tabla agrupamos las categor as o valores de los caracteres en clases que son exhaustivas y excluyentes. A cada individuo lo clasicamos atendiendo a la clase de cada car acter a la que pertenece. Por tanto, las clases conjuntas est an constituidas por la combinaci on de dos clases, una por cada car acter. Estas clases conjuntas tambi en son exhaustivas y excluyentes y en n umero son el producto del n umero de clases de cada car acter. Para cada una de estas clases conjuntas denimos la frecuencia absoluta y la frecuencia relativa de igual manera que para la de las clases de un car acter. A la tabla asociada a estas frecuencias la denominamos tabla de contingencia o tabla de doble entrada, pues las las representan las clases de un car acter y las columnas a las clases del otro car acter. Esta tabla muestra tambi en las frecuencias absolutas (relativas) de las clases de cada car acter a las que denominamos frecuencias absolutas (relativas) marginales y la obtenemos como la suma de las frecuencias absolutas (relativas) de las las o columnas. Las tablas de contingencia las podemos utilizar para organizar la informaci on de caracteres tanto cualitativos como cuantitativos. Notemos que para caracteres cuantitativos una agrupaci on de los valores puede ser necesaria, como ya ocurr a en la tabla de frecuencias de un car acter cuantitativo. Ejemplo 2.1 Supongamos que para la situaci on considerada en el Ejemplo 1.1, adem as de anotar el equipo de trabajo que ha tomado la medida, registramos el tipo de medici on realizada, donde distinguimos entre distancias y angulos. El siguiente conjunto de datos corresponde a los 20 datos observados: DE3, DE2, DE3, AE3, AE1, DE1, AE2, DE3, DE2, DE1, AE2, AE2, AE2, AE1, AE2, DE3, AE2, DE2, AE2, DE3,
Manuales Uex 44
donde AEi denota que el equipo i ha medido un a ngulo y DEi denota que el equipo i ha medido una distancia, con i {1, 2, 3}. En esta nueva situaci on, cada medici on puede ser clasicada en 6 clases atendiendo al tipo de medida as como al equipo que ha tomado la medida. En el
Tipo/Equipos
E1
E2
E3
Marg. Tipos
Angulo Distancia
2 (0.10) 2 (0.10)
7 (0.35) 3 (0.15)
1 (0.05) 5 (0.25)
10 (0.50) 10 (0.50)
Marg. Equipo
4 (0.20)
10 (0.50)
6 (0.30)
20 (1)
Cuadro 2.1: Tabla de contingencia para el conjunto de datos considerado en el Ejemplo 2.1. Cuadro 2.1 organizamos el conjunto de datos en una tabla de doble entrada donde mostramos las frecuencias absolutas y, entre par entesis, las frecuencias relativas. En la tabla de contingencia, observamos que 2 mediciones son del tipo a ngulo y realizadas por el equipo E 1, lo cual representa el 10 % de todas las mediciones observadas. Notemos que el n umero de mediciones totales realizadas por el equipo E 1 son 4, dos angulos y dos distancias, que corresponden a la frecuencia absoluta del equipo E 1 sin tener en cuenta el tipo de a ngulo medido. Notemos que las frecuencias absolutas marginales asociadas a los equipos coinciden con las frecuencias absolutas obtenidas para dicho car acter en el Cuadro 1.1. Teniendo en cuenta las frecuencias relativas marginales del tipo de medida, deducimos que la mitad de las mediciones observadas corresponden a angulos y la otra mitad a distancias. Como hemos comentado anteriormente, en el estudio de dos caracteres no interesan tanto las frecuencias marginales como analizar la posible relaci on entre los caracteres. Con este n, denimos la frecuencia relativa condicionada car acter como la proporci on de individuos pertenecientes a la clase del segundo car acter que est an a la vez en la clase del primer car acter. De manera an aloga denimos la frecuencia relativa condicionada asociada a una clase del segundo car acter condicionada a una clase del primero. asociada a una clase del primer car acter condicionada a una clase del segundo
Manuales Uex 45
Tipo/Equipos
E1
E2
E3
Tipo/Equipos
E1
E2
E3
Angulo Distancia
0.20 0.20
0.70 0.30
0.10 0.50
Angulo Distancia
0.50 0.50
0.70 0.30
0.17 0.83
Cuadro 2.2: Frecuencias relativas condicionadas por tipos (tabla de la izquierda) y por equipos (tabla de la derecha) para el conjunto de datos considerado en el Ejemplo 2.1. Ejemplo 2.2 Teniendo en cuenta el Cuadro 2.1, observamos que 4 mediciones han sido tomadas por el equipo E 1, dos angulos y dos distancias. Por tanto, la frecuencia relativa del tipo de medida condicionado a que sea tomada por el equipo E 1 es de 0.5 para angulos y 0.5 para distancias. Podemos observar que esta relaci on no se conserva para el equipo E 2, siendo la frecuencia relativa condicionada para a ngulos y distancias de 0.7 y 0.3, respectivamente. Por tanto, la proporci on de mediciones de cada tipo de angulo tomadas por cada equipo depende del equipo, pues para E 1 es de 0.50 mientras que para E 2 de 0.70. En la tabla de la izquierda del Cuadro 2.2 mostramos las frecuencias relativas condicionadas por tipos y en la tabla de la derecha las frecuencias relativas condicionadas por equipos. Observamos que la suma de las las son uno para la tabla de la izquierda, pues condicionamos sobre los tipos. Adem as la suma de las columnas son tambi en uno para la tabla de la derecha, pues condicionamos sobre los equipos.
2.3.
Gr acos
El tipo de gr aco apropiado para representar un conjunto de datos asociado a dos caracteres depende de la naturaleza de los mismos. Cuando los dos caracteres son cualitativos, utilizamos un diagrama de barras agrupadas para re-
Manuales Uex 46
presentar las frecuencias absolutas. En dicho gr aco, a cada clase le asociamos una barra con altura igual a su frecuencia absoluta. Adem as, agrupamos las barras que pertenecen a la misma clase de un car acter. La suma de las alturas de dicha barras corresponde a la frecuencia absoluta marginal de la clase. Para representar las frecuencias marginales y las relativas utilizamos un diagrama
10
E1 E2 E3
10
A D
E1
E2
E3
Figura 2.1: Diagramas de barras agrupadas para el conjunto de datos considerado en el Ejemplo 2.1. de barras apiladas. Consiste en el diagrama de barras de un car acter, donde cada barra la dividimos en tantas zonas como clases tenga el otro car acter. El a rea de cada zona viene dado por la frecuencia relativa condicionada a la clase asociada a la barra. Notemos que para cada tipo de diagrama podemos obtener dos gr acos, dependiendo del car acter que jemos en el eje horizontal. Ejemplo 2.3 Como ambos caracteres asociados al conjunto de datos considerado en el Ejemplo 2.1 son cualitativos, representamos los datos utilizando diagramas de barras agrupadas y apiladas. En el gr aco de la izquierda de la Figura 2.1 mostramos el diagrama de barras agrupadas, donde el car acter asociado al tipo de medida es utilizado para la agrupaci on de barras. Asimismo, en el gr aco de la derecha de la Figura 2.1 mostramos el diagrama de barras agrupadas cuando el car acter asociado al equipo es utilizado para la agrupaci on de barras. Finalmente, los diagramas de barras apilados son mostrados en la Figura 2.2. En el gr aco de la izquierda condicionamos a las clases denidas por el car acter asociado al tipo de medida, mientras que en el gr aco de la derecha condicionamos a las clases denidas por el equipo de trabajo. Observemos que los gr acos representan las frecuencias calculadas en el Cuadro 2.1 heterogeneidad de la proporci on de medidas de tipo angulo que son medidas por cada equipo de trabajo, elegimos el diagrama de barras apiladas donde las clases que se jan en el eje horizontal son los equipos.
Manuales Uex 47
14
E3 E2 E1
14
12
10
10
12
D A
E1
E2
E3
Figura 2.2: Diagramas de barras apiladas para el conjunto de datos considerado en el Ejemplo 2.1. La representaci on gr aca de un conjunto de datos cuando uno de los caracteres es cualitativo y el otro cuantitativo consiste en representar el car acter cuantitativo clasicado por las categor as del car acter cuantitativo. Ejemplo 2.4 Supongamos que estamos interesados en determinar la distancia en metros entre dos puntos. Para ello utilizamos dos distanci ometros, uno anal ogico y otro digital, ambos con apreciaci on en mil metros. El siguiente conjunto de datos corresponde a 25 mediciones tomadas con cada uno de ellos. Distanci ometro digital: 15.354, 15.357, 15.356, 15.356, 15.351, 15.352, 15.356, 15.362, 15.356, 15.356, 15.356, 15.354, 15.361, 15.354, 15.356, 15.352, 15.352, 15.360, 15.359, 15.359, 15.357, 15.354, 15.362, 15.356, 15.357. Distanci ometro anal ogico: 15.355, 15.362, 15.357, 15.357, 15.359, 15.350, 15.343, 15.362, 15.363, 15.359, 15.351, 15.354, 15.371, 15.353, 15.354, 15.363, 15.363, 15.350, 15.368, 15.360, 15.353, 15.356, 15.364, 15.363, 15.344. En esta situaci on, la poblaci on a considerar es el conjunto de mediciones de la distancia de inter es y los caracteres bajo estudio son la medida observada y el tipo de distanci ometro. La primera es cuantitativa continua medida en escala
Manuales Uex 48
num erica y la segunda cualitativa medida en escala nominal. En el gr aco de la izquierda de la Figura 2.3 mostramos conjuntamente los diagramas de caja para el conjunto de 25 mediciones tomadas con cada distanci ometro. En el gr aco de la derecha de la Figura 2.3 mostramos conjuntamente los histogramas. De todo ello deducimos que las medianas muestrales son similares
0 15.340
40
80
15.350
15.370
Digital
Analgico
0 15.340
40
80
15.350
15.370
Figura 2.3: Diagramas de caja (gr aco de la izquierda) e histogramas (gr aco de la derecha) para los datos considerados en el Ejemplo 2.4.
A Distancia horizontal
Figura 2.4: Posici on de los puntos en la situaci on descrita en el Ejemplo 2.5. y la dispersi on de las mediciones tomadas con el distanci ometro anal ogico es superior a las mediciones tomadas con el distanci ometro digital. Observemos que para aplicar una estad stica descriptiva conjunta de un car acter cuantitativo y otro cualitativo no es necesario observar el mismo n umero de individuos en cada categor a denida por el car acter cualitativo. Sin embargo, cuando los dos caracteres son cuantitativos, el n umero de datos asociado a cada car acter es el mismo, pues a cada individuo le asociamos dos valores num ericos, uno por cada car acter. En esta situaci on un diagrama de dispersi on es apropiado. En dicho gr aco representamos cada observaci on bidimensional como un punto en el plano cartesiano. Por tanto el n umero de puntos representados es el tama no de la muestra. Este tipo de gr aco es especialmente u til para mostrar la relaci on entre los valores observados de los dos caracteres. Ejemplo 2.5 Fijado dos puntos, A y B , distribuidos tal y como mostramos en la Figura 2.4, supongamos que estamos interesados en determinar la distancia horizontal entre ellos. Para ello medimos la distancia entre los mismos y el
Manuales Uex 49
Observaci on
Distancia
Angulo
Observaci on
Distancia
Angulo
1 2 3 4 5 6 7 8 9 10
42.36 42.27 42.39 42.44 42.44 42.32 42.42 42.40 42.35 42.38
20.32920 20.32917 20.32922 20.32922 20.32923 20.32918 20.32920 20.32921 20.32920 20.32920
11 12 13 14 15 16 17 18 19 20
42.37 42.32 42.47 42.32 42.52 42.35 42.36 42.42 42.40 42.39
20.32921 20.32919 20.32924 20.32918 20.32923 20.32919 20.32920 20.32921 20.32921 20.32922
Cuadro 2.3: Conjunto de datos considerado en el Ejemplo 2.5. angulo vertical , utilizando una estaci on total situada en el punto A, con apreciaci on en cent metros para la distancia y en d ecimas de segundo para los angulos. En el Cuadro 2.3 recogemos 20 mediciones conjuntas de la distancia entre los puntos y el angulo , donde usamos notaci on centesimal. Observemos que un dato consta de dos valores num ericos, la medici on de la distancia y la medici on del angulo asociado a dicha distancia. En la Figura 2.5 mostramos el diagrama de dispersi on asociado al conjunto de datos, donde representamos los valores de la distancia en el eje horizontal y los valores del angulo en el eje vertical. A medida que aumenta el valor de la distancia apreciamos un aumento en valor de la medici on del a ngulo. Adem as, observamos que la disposici on de los puntos dene una tendencia de tipo lineal.
2.4.
Manuales Uex 50
mediante medidas caracter sticas muestrales, al menos uno de ellos tiene que ser de naturaleza cuantitativa. En el caso de que un car acter sea cuantitativo y el otro cualitativo, el estudio lo reducimos a obtener las medidas caracter sticas muestrales del car acter cuantitativo distinguiendo las categor as del car acter cualitativo.
20.32916
20.32920 42.25
20.32924
42.30
42.35
42.40
42.45
42.50
42.55
Figura 2.5: Diagrama de dispersi on para el conjunto de datos considerado en el Ejemplo 2.5.
Medidas caracter sticas Digital Anal ogico
Cuadro 2.4: Medidas caracter sticas para el conjunto de datos considerado en el Ejemplo 2.4. Ejemplo 2.6 Para el conjunto de datos considerado en el Ejemplo 2.4, en el Cuadro 2.4 recogemos las principales medidas caracter sticas de las 25 mediciones realizadas con el distanci ometro anal ogico y las de las 25 mediciones realizadas con el distanci ometro digital. Observamos que las medidas de centralizaci on de ambos conjuntos son similares, mientras que los valores de las medidas de dispersi on correspondientes a las medidas tomadas con el distanci ometro anal ogico son mayores que las correspondientes a las medias tomadas con el distanci ometro digital.
2.4.1.
Medidas de asociaci on
Cuando los dos caracteres son cuantitativos, adem as de obtener las medidas caracter sticas muestrales para cada uno de ellos, podemos denir medidas de
Manuales Uex 51
xi yi x y.
Notemos que la unidad de medida de la covarianza es el producto de las unidades de los dos caracteres. Ejemplo 2.7 Teniendo en cuenta la informaci on recogida en el Cuadro 2.5, obtenemos para el conjunto de datos considerado en el Ejemplo 2.5, que
20 i=1
xi yi = 17232.86,
20 i=1
xi = 847.69 y
20 i=1
yi = 406.5841.
Como el tama no muestral es 20, calculamos el valor de la covarianza, que es pr oximo a 9 diezmillon esima. El valor de la covarianza muestral puede ser positivo o negativo. Un producto
Manuales Uex 52
los dos mayores o los dos menores que los valores de sus respectivas medias
del tipo (xi x)(yi y ) es positivo si y s olo si los valores de los caracteres son
muestrales. En general, obtenemos un valor positivo de la covarianza si existe una tendencia de tipo lineal directa entre los dos caracteres, es decir, valores bajos (altos) de un car acter se asocia a valores bajos (altos) del otro car acter a trav es de una dependencia de tipo lineal. Por el contrario, si existe una
xi
yi
xi yi
xi
yi
xi yi
42.36 42.27 42.39 42.44 42.44 42.32 42.42 42.40 42.35 42.38
20.32920 20.32917 20.32922 20.32922 20.32923 20.32918 20.32920 20.32921 20.32920 20.32920
861.1449 859.3140 861.7556 862.7721 862.7725 860.3309 862.3647 861.9585 860.9416 861.5515
42.37 42.32 42.47 42.32 42.52 42.35 42.36 42.42 42.40 42.39
20.32921 20.32919 20.32924 20.32918 20.32923 20.32919 20.32920 20.32921 20.32921 20.32922
861.3486 860.3313 863.3828 860.3309 864.3989 860.9412 861.1449 862.3651 861.9585 861.7556
Suma
423.77
203.29203
8614.9064
423.92
203.29208
8617.9579
Cuadro 2.5: C alculo de la covarianza muestral del conjunto de datos considerado en el Ejemplo 2.7. tendencia de tipo lineal inversa entre los dos caracteres, es decir, valores bajos (altos) de un car acter se asocian a valores altos (bajos) del otro car acter a trav es de una dependencia de tipo lineal, obtenemos un valor negativo. Un valor pr oximo a cero nos indica una escasa asociaci on de tipo lineal entre ambos caracteres. Por todo ello, decimos que la covarianza es una medida de asociaci on para medir relaciones lineales. Obviamente, a un siendo la covarianza pr oxima a cero, una relaci on entre ambos caracteres es posible, pero no ser a de tipo lineal. En la Figura 2.6 mostramos dos diagramas de dispersi on donde se observa una tendencia de tipo lineal, directa para el gr aco de la izquierda (covarianza muestral positiva) e inversa para el gr aco de la derecha (covarianza muestral negativa). Sin embargo, en los diagramas de dispersi on mostrados en la Fies pr oxima a cero. Para el gr aco de la izquierda observamos cierta independencia entre los valores de los dos caracteres, mientras que una asociaci on de tipo cuadr atica puede ser apropiada para describir los datos del gr aco de la derecha.
Manuales Uex 53
81.405
81.395
81.385
81.375
65.350
65.355
65.360
65.365
50.670 65.354
50.675
50.680
50.685
65.356
65.358
65.360
65.362
65.364
Figura 2.6: Diagramas de dispersi on con tendencia lineal directa (gr aco de la izquierda) y con tendencia lineal inversa (gr aco de la derecha).
16.34502 65.354 65.358 65.362 16.34500 16.34501
50.670 65.350
50.675
50.680
50.685
65.354
65.356
65.358
65.360
65.362
Figura 2.7: Diagramas de dispersi on, con ausencia de tendencia lineal. El inconveniente de utilizar la covarianza muestral como medida de asociaci on radica en su dependencia de las unidades de medida de los caracteres. Esta dependencia no permite determinar el grado de asociaci on de tipo lineal entre los caracteres. Para ello, utilizamos el coeciente de correlaci on muestral de Pearson que lo denotamos por rP y lo denimos como el cociente entre la covarianza y el producto de las desviaciones t picas muestrales del conjunto de datos asociado a cada car acter, es decir, n (xi x)(yi y ) n rP = n i=1 . 2 2 i=1 (xi x) i=1 (yi y )
A partir de su denici on, deducimos que coeciente de correlaci on muestral de Pearson es una medida adimensional, con el mismo signo que la covarianza, pero acotada entre -1 y 1. Cuanto mayor sea el valor absoluto del coeciente de correlaci on muestral de Pearson mayor es el grado de asociaci on lineal entre lo datos de los dos caracteres. El signo del coeciente nos indica si la relaci on es directa (signo positivo) o inversa (signo negativo). Si el valor absoluto del
Manuales Uex 54
20.32924
20.32920
20.32916
42.25
42.30
42.35
42.40
42.45
42.50
42.55
20.28 42.25
20.30
20.32
20.34
20.36
20.38
20.40
42.30
42.35
42.40
42.45
42.50
42.55
Figura 2.8: Diagramas de dispersi on para las situaciones descritas en el Ejemplo 2.8. coeciente es uno, entonces podemos denir una relaci on lineal exacta entre los datos de ambos caracteres, es decir, cada valor de un car acter determina un vocamente mediante una relaci on lineal el valor asociado del otro car acter. En cambio, un valor del coeciente de correlaci on muestral de Pearson pr oximo a cero indica ausencia de asociaci on de tipo lineal. Ejemplo 2.8 Para el conjunto de datos considerado en el Ejemplo 2.5, obtenemos que el coeciente de correlaci on muestral de Pearson es 0.895. Por ser positivo y pr oximo a uno, la asociaci on entre los valores de ambos caracteres es de tipo lineal. Notemos que dicha relaci on lineal no es exacta, como muestra su diagrama de dispersi on (gr aco de la izquierda de la Figura 2.8). Un diagrama de dispersi on asociado a una relaci on lineal exacta lo mostramos en el gr aco de la derecha de la Figura 2.8, donde representamos la distancia observada frente a la mitad de dicha distancia menos 0.85537. Como el coeciente de correlaci on muestral de Pearson utiliza todo el valor num erico de los datos, es una medida que est a inuenciada por la presencia de valores at picos. Una medida de asociaci on robusta ante la presencia de valores at picos es el coeciente de correlaci on muestral de Spearman. Lo denotamos para el conjunto de rangos apareados. Los rangos asociados a los datos de un car acter los asignamos seg un el orden num erico de dichos datos, teniendo en cuenta que, en el caso de valores coincidentes, asignamos a cada dato el promedio de los rangos que hubi eramos asignado si no hubiese coincidencias. por rS y lo denimos como el coeciente de correlaci on muestral de Pearson
Manuales Uex 55
0 0
1000
2000
3000
4000
Figura 2.9: Diagrama de dispersi on donde la asociaci on del conjunto de datos no es de tipo lineal y el coeciente de correlaci on muestral de Spearman es pr oximo a uno. Como el coeciente de correlaci on muestral de Spearman es el coeciente de correlaci on muestral de Pearson de los rangos, deducimos que es una medida de asociaci on relativa, acotada entre -1 y 1. De su denici on deducimos que determina si existe una relaci on mon otona entre los datos de los dos caracteres. Un valor positivo nos indica monoton a directa, es decir, a valores altos (bajos) de un car acter se asocian valores altos (bajos) del otro car acter, pues los rangos asignados a los valores est an asociado de ese modo. En cambio, si a valores altos (bajos) de un car acter se asocian valores bajos (altos) del otro car acter, obtenemos un valor negativo. Un valor pr oximo a cero nos indica una escasa asociaci on de monoton a entre ambos caracteres. Cuanto mayor es el valor absoluto del coeciente de correlaci on muestral de Spearman mayor es el grado de asociaci on de monoton a entre los datos de los dos caracteres. Si existe una asociaci on de tipo lineal, los coecientes de correlaci on de Pearson y Spearman nos indican el mismo tipo de monoton a, directa o inversa. Adem as, como existen relaciones de monoton a distintas a la lineal, por ejemplo relaci on de tipo exponencial, un conjunto de datos puede tener el coeciente de correlaci on de Pearson pr oximo a cero y en cambio el valor absoluto del coeciente de
Manuales Uex 56
correlaci on de Spearman pr oximo a uno. Un diagrama de dispersi on de un conjunto de datos con tales caracter sticas lo mostramos en la Figura 2.9, donde el coeciente de correlaci on de Person en 0.64860 y el de Spearman es 0.90033.
Dist.
Rango
Angulo
Rango
Dist.
Rango
Angulo
Rango
42.36 42.27 42.39 42.44 42.44 42.32 42.42 42.40 42.35 42.38
7.5 1.0 11.5 17.5 17.5 3.0 15.5 13.5 5.5 10.0
20.32920 20.32917 20.32922 20.32922 20.32923 20.32918 20.32920 20.32921 20.32920 20.32920
8.0 1.0 16.0 16.0 18.5 2.5 8.0 12.5 8.0 8.0
42.37 42.32 42.47 42.32 42.52 42.35 42.36 42.42 42.40 42.39
9.0 3.0 19.0 3.0 20.0 5.5 7.5 15.5 13.5 11.5
20.32921 20.32919 20.32924 20.32918 20.32923 20.32919 20.32920 20.32921 20.32921 20.32922
12.5 4.5 20.0 2.5 18.5 4.5 8.0 12.5 12.5 16.0
Cuadro 2.6: Asignaci on de rangos para el conjunto de datos considerado en el Ejemplo 2.9. Ejemplo 2.9 En el Cuadro 2.6 mostramos los rangos asignados a los valores de cada car acter para el conjunto de datos considerado en el Ejemplo 2.5. Observemos que la asignaci on de rangos de cada car acter lo realizamos de manera independiente. Como 20.32917 es el menor valor observado para el a ngulo, a este valor le asignamos el rango uno, pues no existe otra observaci on igual. El siguiente valor es 20.32918, observado dos veces, que ocupa las posiciones segunda y tercera, una vez ordenados todos las mediciones del angulo de menor a mayor. Por eso, a este valor le asignamos el rango promedio, es decir, 2.5. Calculando el coeciente de correlaci on muestral de Pearson de las parejas de rangos asignados, obtenemos que el coeciente de correlaci on muestral de Spearman es 0.892. Como la asociaci on del conjunto de datos es de tipo lineal, el valor del coeciente de correlaci on de Spearman es pr oximo a uno y similar al coeciente de correlaci on de Pearson calculado en el Ejemplo 2.8.
Como los coecientes de correlaci on muestral de Pearson y de Spearman son medidas relativas, sus valores absolutos son invariantes ante un cambio de escala en los datos. Asimismo, a partir de las propiedades de la cuasidesviaci on t pica y covarianza muestrales, deducimos que el coeciente de correlaci on
Manuales Uex 57
2.4.2.
Transformaci on de datos
Manuales Uex 58
Figura 2.10: Posici on de los puntos considerado en la situaci on descrita en el Ejemplo 2.11.
Obs. OA OB AB Obs. OA OB AB
1 2 3 4 5 6 7 8 9 10
65.358 65.362 65.357 65.359 65.352 65.353 65.353 65.356 65.357 65.353
101.036 101.040 101.039 101.036 101.029 101.027 101.032 101.025 101.037 101.032
35.678 35.678 35.682 35.677 35.677 35.674 35.679 35.669 35.680 35.679
11 12 13 14 15 16 17 18 19 20
65.362 65.354 65.353 65.358 65.357 65.353 65.360 65.356 65.355 65.361
101.041 101.030 101.030 101.032 101.031 101.026 101.035 101.032 101.033 101.041
35.679 35.676 35.677 35.674 35.674 35.673 35.675 35.676 35.678 35.680
Cuadro 2.7: Conjunto de datos considerado en el Ejemplo 2.11. Ejemplo 2.11 Fijado tres puntos, O, A y B , distribuidos tal y como mostramos en la Figura 2.10, supongamos que estamos interesado en determinar la distancia en metros AB . Para ello utilizamos una estaci on total con apreciaci on en mil metros situada en el punto O y medimos las distancia OA y OB . En el Cuadro 2.7 recogemos 20 mediciones conjuntas de las distancias OA y OB . Asimismo, hemos calculado las mediciones indirectas AB obtenidas como diferencias entre OB y OA. Las medidas caracter sticas asociadas a los tres conjuntos de valores las mostramos en el Cuadro 2.8. Observamos que la media muestral del conjunto de datos asociado al car acter AB es la diferencia de las medias muestrales de los conjuntos de datos asociados a los caracteres OB y OA, respectivamente. Notemos que esta relaci on no se verica para la mediade datos asociado a los caracteres OA y OB menos dos veces la covarianza muestral del conjunto de datos apareados asociado a los caracteres OA y OB es la varianza muestral del conjunto de datos asociado al car acter AB . Esta relaci on, no se verica para la meda muestral. na muestral. Asimismo, la suma de las varianzas muestrales de los conjuntos
Manuales Uex 59
OA
OB
AB
Cuadro 2.8: Medidas caracter sticas para el conjunto de datos considerados en el Ejemplo 2.11.
2.5.
Pr acticas de laboratorio
Para la situaci on descrita en el Ejemplo 2.1, utilizamos las sentencias: Cargar el conjunto de datos x<-as.factor(c("E3", "E2", "E3", "E3", "E1", "E1", "E2", "E3", "E2", "E1", "E2", "E2", "E2", "E1", "E2", "E3", "E2", "E2", "E2", "E3")) y<-as.factor(c("D", "D", "D", "A", "A", "D", "A", "D", "D", "D", "A", "A", "A", "A", "A", "D", "A", "D", "A", "D")) Frecuencias absolutas, relativas y relativas condicionas table(x,y); table(x,y)/length(x); f<-function(z){z/sum(z)} round(apply(table(x,y),2,f),2); apply(table(y,x),2,f) Diagrama de barras agrupadas y apiladas
Manuales Uex 60
Manuales Uex 61
Manuales Uex 62
2.6.
Cuestiones y problemas
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) La frecuencia relativa de una clase conjunta denida por la combinaci on de dos categor as de dos caracteres es diferente a la frecuencia relativa de una categor a de un car acter condicionada a otra categor a del otro car acter. ii) Si el coeciente de correlaci on muestral de Spearman de un conjunto de datos asociados a dos caracteres cuantitativos es pr oximo a cero entonces tambi en lo es el coeciente de correlaci on muestral de Pearson. iii) Si el valor absoluto del coeciente de correlaci on muestral de Spearman de un conjunto de datos asociados a dos caracteres cuantitativos es pr oximo a uno entonces tambi en lo es en valor absoluto del coeciente de correlaci on muestral de Pearson. iv) El coeciente de correlaci on muestral de Spearman de un conjunto de datos asociados a dos caracteres cuantitativos coincide con el coeciente de correlaci on muestral de Spearman del conjunto de datos donde al menor valor num erico observado de un car acter le restamos una unidad. 2. Completar y comentar descriptivamente la tabla de contingencia mostrada en la Figura 2.9. En dicha tabla organizamos las frecuencias absolutas de un conjunto de datos formado por 50 mediciones realizadas con un distanci ometro con apreciaci on en mil metros, que puede ser anal ogico o digital. Los valores de las mediciones los agrupamos en 6 intervalos de amplitud 0.005. Adem as, entre par entesis, indicamos las frecuencias relativas condicionadas al tipo de distanci ometro. 3. Discutir razonadamente cu al de los diagramas de dispersi on mostrados en la Figura 2.11 corresponde a un conjunto de datos asociado a dos caracteres cuantitativos tal que el coeciente de correlaci on muestral de Pearson es
Manuales Uex 63
Distaci ometro/Tipo
Anal ogico
Digital
(16.165, 16.170]
1( ) ( ) 8( ) ( ) ( ) (0.04)
( ) 4( ) 6( ) (0.24) (0.20) ( )
3 6
Marg. Tipo
25 (
Cuadro 2.9: Tabla de contingencia para la situaci on considerada en el Problema 2. pr oximo a cero y los coecientes de variaci on de los valores asociados a cada car acter son similares. 4. Supongamos que en un trabajo topogr aco estamos interesados en determinar la relaci on entre el tipo de angulo medido, sea vertical u horizontal, y el aparato de medida utilizado, sea teodolito o estaci on total. Para tal n seleccionamos 16 angulos registrados en el trabajo y anotamos el tipo de a ngulo as como el tipo de aparato utilizado, obteni endose la secuencia: HET, VT, HET, VET, HET, VET, HET, VET, HET, VT, HT, VET, VT, VET, HET, HET, donde VT denota angulo vertical medido con teodolito, VET denota a ngulo vertical medido con estaci on total, HT denota angulo horizontal medido con teodolito y HET denota angulo horizontal medido con estaci on total. Atendiendo a la naturaleza de los dos caracteres, analizar descriptivamente de manera
Manuales Uex 64
exhaustiva y sintetizada los datos seleccionados, utilizando para ello el software estad stico R. 5. Supongamos que estamos interesados en determinar el area, medida en metros cuadrados, de un determinado recinto. Para ello utilizamos dos distan-
35.362
61.395
35.360
61.390
61.385
35.356
61.380
35.350
35.355 X
35.360
35.365
35.354
35.35748
35.35749
35.358
35.35750
61.400
35.354
35.356
35.358 X
35.360
35.362
Figura 2.11: Diagrama de dispersi on asociados a los tres conjuntos de datos considerados en el Problema 3. ci ometros, uno anal ogico y otro digital. El siguiente conjunto de datos corresponde a 20 mediciones tomadas con cada uno de ellos. Distanci ometro digital: 123.4515, 123.4414, 123.4463, 123.4504, 123.4491, 123.4556, 123.4447, 123.4487, 123.4464, 123.4557, 123.4492, 123.4481, 123.4531, 123.4493, 123.4493, 123.4394, 123.4495, 123.4467, 123.4474, 123.4482. Distanci ometro anal ogico: 123.4292, 123.4340, 123.4377, 123.4393, 123.4396, 123.4406, 123.4417, 123.4423, 123.4461, 123.4513, 123.4535, 123.4536, 123.4545, 123.4562, 123.4571, 123.4616, 123.4624, 123.4631, 123.4699, 123.4726. Atendiendo a la naturaleza de los dos caracteres, analizar descriptivamente de manera exhaustiva y sintetizada los datos seleccionados, utilizando para ello el software estad stico R. 6. Supongamos que desde una posici on ja y utilizando una estaci on total con apreciaci on en segundos tomamos medidas de dos angulos, uno horizontal y en grados centesimales, donde AV denota las medidas del angulo vertical y AH las medidas del angulo horizontal. Atendiendo a la naturaleza de los dos caracteres, analizar descriptivamente de manera exhaustiva y sintetizada los datos seleccionados, utilizando para ello el software estad stico R. otro vertical. En el Cuadro 2.10 recogemos 20 mediciones conjuntas medidas
Manuales Uex 65
Manuales Uex 67
Como comentamos en los preliminares, la Teor a de la Probabilidad juega un papel fundamental a la hora de inferir a toda la poblaci on la informaci on contenida en una muestra extra da de la misma. El objetivo principal de la Teor a de la Probabilidad es cuanticar la incertidumbre en el resultado de un experimento aleatorio. En este bloque tem atico exponemos las principales herramientas para tal n. Concretamente, en este tema, introduciremos el concepto de suceso en el marco de un experimento aleatorio como paso previo para dar la denici on de probabilidad. Una vez denida la probabilidad de un suceso, estudiaremos sus principales propiedades y expondremos algunos resultados de utilidad para el c alculo de probabilidades.
3.2.
El primer paso para cuanticar la incertidumbre asociada a un experimento aleatorio es determinar su espacio muestral, que es el conjunto de los posibles resultados del mismo. Atendiendo al n umero de elementos, el espacio muestral puede ser nito, innito numerable o innito no numerable. A cualquier subconjunto del espacio muestral lo denominamos suceso. Adem as, a un suceso formado por un u nico elemento, lo denominamos suceso elemental, pues es uno
si todos los sucesos elementales de A lo son de B . Finalmente denominamos los sucesos elementales que no constituyen el suceso A.
Ejemplo 3.1 Supongamos que en el almac en del Centro Universitario de M erida disponemos de 5 estaciones totales para realizar las pr acticas de campo de una determinada asignatura y consideramos el experimento aleatorio consistente en coger al azar una estaci on total. Si enumeramos las estaciones disponibles del uno al cinco, los posibles resultados (sucesos elementales) de dicho experimento son ET 1, ET 2, ET 3, ET 4, ET 5, que constituyen el espacio muestral. El subconjunto {ET 1, ET 2} es un suceso del experimento aleatorio, que est a constituido como la uni on de dos sucesos elementales. El suceso {ET 1, ET 2} se asocia a los experimentos en los cuales o bien escogemos la
que la uni on de ambos sucesos es el suceso {ET 1, ET 2, ET 5} y la intersecci on mentario del suceso {ET 2} es el suceso {ET 1, ET 3, ET 4, ET 5}, que lo hemos que intervienen en la intersecci on. el suceso {ET 2}, que obviamente est a incluido en ambos sucesos. El comple-
podido obtener como la uni on del complementario de los dos sucesos de partida
Manuales Uex 70
La naturaleza del car acter asociado al experimento aleatorio descrito en el ejemplo anterior es cualitativo, y as los resultados del experimento son las categor as de dicho car acter. En el siguiente ejemplo, el resultado del experimento es un valor num erico pues el car acter asociado es cuantitativo.
o iguales a la medida real de la distancia. Su complementario es el suceso {x R : x > 0 }, es decir, el suceso asociado con las mediciones mayores que
la medida calibrada. La intersecci on de ambos sucesos es el suceso imposible y la uni on el espacio muestral.
3.3.
En lo que sigue, estamos interesados en cuanticar la incertidumbre que ocurra un suceso A como resultado de un experimento aleatorio. Para ello le asociamos una medida de incertidumbre a la que llamamos probabilidad y la denotamos por P (A). Esta probabilidad est a relacionada con la frecuencia relativa de dicho suceso al repetir el experimento. En base a las propiedades de la frecuencia relativa, suponemos que la probabilidad es un n umero no negativo y acotado por uno, es decir, 0 P (A) 1. Al espacio muestral le asociamos la probabilidad m axima. Adem as, por ser una medida, la probabilidad de dos sucesos incompatibles A y B es la suma de las probabilidades de los mismos, es decir, P (A B ) = P (A) + P (B ) si A B = . Consecuencia de estas suposiciones tenemos las siguientes propiedades que permiten calcular la probabilidad de un suceso en funci on de otros sucesos m as sencillos. P (Ac ) = 1 P (A) P () = 0 P (A B ) = P (A) + P (B ) P (A B ) Si A B entonces P (A) P (B )
Manuales Uex 71
Frecuencia relativa
0.0 0
0.1
0.2
0.3
0.4
1000
2000
3000
4000
5000
Tamao muestral
Figura 3.1: Evoluci on de la frecuencia relativa del suceso elemental ET 1 del Ejemplo 3.1. La determinaci on de las probabilidades de los sucesos est a asociada al estudio de las frecuencias relativas de los mismos al repetir el experimento en id enticas condiciones, pues emp ricamente se ha demostrado que la frecuencia relativa de un suceso tiende a estabilizarse. En la Figura 3.1 mostramos la evoluci on de la frecuencia relativa del suceso elemental ET 1 del Ejemplo 3.1, cuando hemos simulados 5000 experimento aleatorio consistente en coger al azar un estaci on total de las cinco existentes. Observamos que se estabiliza en el valor 0.2 que representar a la probabilidad del suceso elemental ET 1. Sin embargo, no siempre es factible realizar una experimentaci on continuada o si lo es, no en el n umero de veces necesario para obtener una estabilizaci on de las frecuencias relativas de inter es. En estas situaciones, calculamos las probabilidades combinando la experimentaci on con la teor a sobre la naturaleza del experimento. Un caso sencillo, es cuando el espacio muestral es nito y la simetr a de los sucesos elementales sugiere considerarlos equiprobables, es decir, con igual probabilidad asociada. Por tanto, como los sucesos elementales son incompatibles dos a dos y la uni on de todos ellos es el espacio muestral al que le asociamos probabilidad uno, si existen K sucesos elementales entonces a cada uno de ellos le asociamos probabilidad 1/K . As , si un suceso est a formado por k sucesos elementales, la probabilidad asociada a dicho suceso es k/K . Esta f ormula es conocida como regla de Laplace y la interpretamos como el cociente entre los casos factibles (k ) y los casos posibles (K ). Observemos que, en esta situaci on, la probabilidad de un suceso s olo depende del n umero de sucesos elementales y no de los sucesos elementales que lo forman.
Manuales Uex 72
La incertidumbre sobre la observaci on de un suceso puede depender del grado de informaci on parcial que tengamos sobre los resultados del experimento, como mostramos en el siguiente ejemplo.
Manuales Uex 73
3.4.
Probabilidad condicionada
donde suponemos que P (B ) > 0 para que el cociente est e bien denido. Es inmediato probar que la probabilidad condicionada de cualquier suceso es un valor no negativo, que al suceso B le asocia valor uno y que la probabilidad de la uni on de dos sucesos incompatibles es la suma de las probabilidades P (A|B c ) no es en general igual a P (A|B ). condicionadas. Observemos que P (A|B ) no es, en general, igual a P (B |A), y
Ejemplo 3.6 Si para la situaci on descrita en el Ejemplo 3.5, denotamos por calibradas, a partir de la expresi on de la probabilidad condicional tenemos que 1 , 2 como ya hab amos calculado. Por otro lado, P (ET M C |{ET 1}) = 1, pues si P ({ET 1}|ET M C ) = el resultado del experimento ha sido elegir la ET 1, entonces hemos seleccionado una estaci on total que est a mal calibrada. Observemos que si s olo sabemos qu e dos estaciones totales est an mal calibradas y no conocemos que estaciones totales son, entonces tenemos que P ({ET 1}|ET M C ) = 1/5 y P (ET M C |{ET 1}) = 2/5, que coinciden con las probabilidades de los sucesos sin condicionar. Finalmente, si denotamos por ET BC = {ET 3, ET 4, ET 5}, al suceso constitui= 0, que no coincide con P ({ET 1}|ET M C ). ET M C = {ET 1, ET 2} al suceso constituido por las estaciones totales mal
Manuales Uex 74
do por las estaciones totales bien calibradas, obtenemos que P ({ET 1}|ET BC )
3.4.1.
La probabilidad condicionada nos ayuda a calcular la probabilidad de la intersecci on de dos sucesos, mediante la siguiente expresi on, denominada regla de la multiplicaci on P (A B ) = P (B )P (A|B ) = P (A)P (B |A). Teniendo en cuenta esta expresi on, podemos deducir la probabilidad de un suceso A a partir de la probabilidad de un suceso B y las probabilidades de A condicionada a B y B c , como sigue P (A) = P (A B ) + P (A B c ) = P (B )P (A|B ) + P (B c )P (A|B c ). A este resultado lo denominamos teorema de la probabilidad total y es de gran utilidad en el c alculo de determinadas probabilidades a partir de otras m as sencillas de obtener. Ejemplo 3.7 Para la situaci on descrita en el Ejemplo 3.6, donde denotamos por ET M C = {ET 1, ET 2} y ET BC = {ET 3, ET 4, ET 5}, calculamos la total como P ({ET 1}) = P (ET M C )P ({ET 1}|ET M C ) + P (ET BC )P ({ET 1}|ET BC ) 2 1 3 1 = + 0= . 5 2 5 5 probabilidad del suceso elemental ET 1 a partir del teorema de la probabilidad
3.4.2.
Sucesos independientes
En ocasiones la probabilidad del suceso A condicionado a B coincide con la la informaci on que proporciona el suceso B no afecta a la probabilidad de A. Adem as, la probabilidad de la intersecci on de ambos sucesos es el producto de P (B )P (A). Este hecho implica adem as, que la informaci on que proporciona el suceso A tampoco afecta a la probabilidad de B , pues P (B |A) = P (B A) P (B )P (A) = = P (B ). P (A) P (A) probabilidad de A, es decir, P (A|B ) = P (A). Esta igualdad nos indica que
Manuales Uex 75
Ejemplo 3.8 Una modicaci on de la situaci on descrita en el Ejemplo 3.1 consiste en considerar que las pr acticas de campo se realizan en dos sesiones distintas, y en cada una escogemos al azar una estaci on total de entre las cinco existentes. En esta situaci on, un resultado del experimento consiste en especicar la estaci on total seleccionada en la primera sesi on y la estaci on total seleccionada en la segunda sesi on. Un ejemplo de suceso elemental es S 1ET 3&S 2ET 1 donde entendemos que en la sesi on primera hemos elegido ET 3 y en la sesi on segunda ET 1. Por tanto, el espacio muestral est a constituido por 25 sucesos elementales como resultado de las distintas formas en que puedo tomar de dos en dos las 5 estaciones totales (ver Ap endice B). As , suponiendo que todos los sucesos elementales son equiprobables, tenemos que la probabilidad de un suceso elemental es 1/25. Adem as, teniendo en cuenta que el suceso {S 1ET 3} es la uni on disjunta de los sucesos elementales S 1ET 3&S 2ET 1, S 1ET 3&S 2ET 2, S 1ET 3&S 2ET 3, S 1ET 3&S 2ET 4, S 1ET 3&S 2ET 5, obtenemos que P ({S 1ET 3}) = 1/5. Siguiendo un razonamiento similar, tenemos que P ({S 2ET 1}) = 1/5. Con todo ello, deducimos que los sucesos {S 1ET 3} y {S 2ET 1} son independientes, pues 1 P ({S 1ET 3&S 2ET 1}) = . P ({S 1ET 3}) 5
La independencia de ambos sucesos nos indica que la selecci on de la estaci on total en la primera sesi on no condiciona la selecci on en la segunda sesi on. No debemos confundir sucesos independientes con sucesos incompatibles, es
Manuales Uex 76
decir, aquellos que no podemos observar simult aneamente. M axime cuando se verica que si A y B son dos sucesos incompatibles con probabilidades no las probabilidades de ambos sucesos es no nulo. Adem as, se verica que dos sucesos son independientes si y s olo si P (A|B ) = P (A|B c ). nulas, entonces no son independientes, pues P (A B ) = 0 y el producto de
3.4.3.
Regla de Bayes
Dado dos sucesos A y B de probabilidad no nula, la regla de Bayes permite calcular la probabilidad del suceso B condicionado al suceso A en funci on de la probabilidad de B y de las probabilidades de A condicionado a B y B c , cuando estas son conocidas. Concretamente tenemos que P (B |A) = P (A|B )P (B ) P (A B ) = . P (A) P (A|B )P (B ) + P (A|B c )P (B c )
Ejemplo 3.9 Supongamos que de las cinco estaciones totales del Centro Universitario de M erida conocemos que dos est an mal calibradas, pero no sabemos qu e estaciones son. Para detectar si una estaci on total est a bien o mal calibrada seguimos un m etodo de detecci on. Dicho m etodo no es exacto en sus decisiones. M as concretamente sabemos que al aplicarlo a una estaci on total proporciona una decisi on correcta con probabilidad 0.95. Por tanto, si denotamos por ET BC (ET M C ) al conjunto de estaciones totales bien (mal) calibrada y por DET BC (DET M C ) al suceso asociado a la decisi on de que la estaci on total est a bien (mal) calibrada, tenemos que P (DET BC |ET BC ) = P (DET M C |ET M C ) = 0.95. Aplicando el teorema de la probabilidad total, tenemos que la probabilidad de detectar una estaci on mal calibrada al aplicar el m etodo es P (DET M C ) = P (ET BC )P (DET M C |ET BC )
+ P (ET M C )P (DET M C |ET M C ) 5 2 95 41 3 + = . = 5 100 5 100 100 Observamos que si la decisi on la tomamos al azar sin aplicar el m etodo de detecci on, la probabilidad de decidir que est a mal calibrada es de 0.4, valor muy pr oximo al obtenido con el m etodo detecci on. Sin embargo, al aplicar el m etodo obtenemos que la probabilidad de que la estaci on total que hemos decidido que est a mal calibrada lo est e es mayor. En efecto, en general tenemos que P (ET M C DET M C ) . P (ET M C |DET M C ) = P (DET M C ) Como P (ET M C DET M C ) = P (ET M C )P (DET M C |ET M C ),
Manuales Uex 77
Si tomamos la decisi on al azar, P (ET M C |DET M C ) = 0.4, pues P (DET M C |ET M C ) = P (ET M C ) = P (DET M C ) = 0.4. En cambio, aplicando el m etodo de detecci on, tenemos que P (ET M C |DET M C ) =
2 5 95 100 38 = , 41/100 41
que es mayor que 0.4. Asimismo, deducimos que P (ET BC |DET M C ) = 3/41, la estaci on total est a mal calibrada.
3.5.
Pr acticas de laboratorio
Para estudiar el comportamiento probabil stico del experimento aleatorio descrito en el Ejemplo 3.1, utilizamos las sentencias: Generar 5000 veces el experimento aleatorio library(e1071); y<-rdiscrete(5000, rep(1/5,5)) Calcular la frecuencia relativa para el suceso {ET 1} x<-y==1; cumsum(x)/(1:length(x)) Representar la frecuencia relativa en funci on del n umero de repeticiones plot(1:length(x), cumsum(x)/(1:length(x)), type="l", xlab="Tama~ no muestral", ylab="Fr. relativa", ylim=c(0,0.4)) lines(1:length(x), rep(0.2,length(x)), lty=2)
Manuales Uex 78
3.6.
Cuestiones y problemas
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) La suma de probabilidades de dos sucesos distintos cualesquiera es menor o igual que uno. ii) La probabilidad de un suceso elemental es siempre no nula. iii) Si dos sucesos tienen la misma probabilidad, entonces est an constituidos por el mismo n umero de sucesos elementales. iv) Si el suceso A es independiente del suceso B entonces el suceso A tambi en es independiente del suceso complementario de B . 2. Si la probabilidad de cometer una pia con una estaci on total bien calibrada es de 0.01 y con una estaci on total mal calibrada es de 0.05, calcular la probabilidad de cometer una pia cuando tenemos una incertidumbre de 0.5 de que la estaci on total utilizada est e bien calibrada. Adem as, si al tomar una medida hemos cometido una pia, calcular la probabilidad de que la estaci on total utilizada est e mal calibrada. En los siguientes problemas consideremos que en el almac en del Centro Universitario de M erida existen 6 estaciones totales disponibles para los alumnos y que dos de ellas est an mal calibradas. Adem as, suponemos que la selecci on de cualquier estaci on total se produce al azar. 3. Supongamos que para la realizaci on de las pr acticas de campo de una determinada asignatura se forma un u nico grupo de trabajo y para cada sesi on s olo se requiere de una estaci on total, que se devuelve al nalizar la sesi on. Calcular razonadamente las siguientes probabilidades: i) Probabilidad de que en una sesi on el grupo trabaje con una estaci on total bien calibrada. ii) Probabilidad de que en una sesi on el grupo trabaje con una estaci on total mal calibrada.
Manuales Uex 79
Manuales Uex
iii) Probabilidad de que en una sesi on al menos un grupo trabaje con una estaci on total bien calibrada. iv) Probabilidad de que en una sesi on un grupo trabaje con una estaci on total mal calibrada sabiendo que al menos un grupo trabaja con una estaci on total bien calibrada.
80
Manuales Uex 81
En el tema anterior hemos introducido el concepto de probabilidad para medir la incertidumbre en el resultado de un experimento aleatorio. Si en este experimento aleatorio estamos interesados en un determinado car acter nos convendr a conocer las probabilidades de los sucesos relacionados con dicho car acter. Si es cuantitativo, los sucesos vendr an expresados en t erminos de valores num ericos. Las propiedades de los n umeros pueden ser de ayuda para denir y describir el comportamiento aleatorio del experimento, lo cual no ocurre si la naturaleza del car acter asociado al experimento es cualitativa. En este tema, introducimos el concepto de variable aleatoria unidimensional como una funci on que asocia a cada resultado del experimento un valor num erico, independientemente de la naturaleza del car acter. Esto permite trasladar la incertidumbre en el resultado del experimento aleatorio a valores num ericos. En estas condiciones el espacio muestral de una variable aleatoria es un conde probabilidad asociada a una variable aleatoria se simplica. La funci on de probabilidad y la funci on de densidad nos permiten esta tarea. Asimismo, deniremos algunas medidas caracter sticas que sintetizan la distribuci on de probabilidad de una variable aleatoria, aunque no la determinan de manera junto de n umeros, con lo cual la denici on y descripci on de la distribuci on
Manuales Uex 83
4.2.
Variable aleatoria
Como hemos comentado anteriormente, con el n de facilitar la denici on y descripci on de la probabilidad asociada a un experimento aleatorio es de inter es caracterizar cuantitativamente los resultados del experimento. Fijado un experimento aleatorio, denominamos variable aleatoria a una funci on que asigna a cada suceso elemental un n umero real. Si denota el conjunto de sucesos elementales del experimento y X la variable aleatoria, tenemos que X: R
X ( )
y los valores de X est an sujetos a las leyes del azar subyacente al experimento aleatorio. As por ejemplo, si x R P (X x) = P ( : X ( ) x). El conjunto de valores num ericos que toma una variable constituye el espacio muestral de la variable aleatoria. Si es de cardinal nito o innito numerable diremos que la variable aleatoria es discreta. Si es de cardinal innito no numerable, diremos que la variable aleatoria es continua. A la funci on F (x) = P (X x), con x R, la denominamos funci on de
distribuci on de la variable aleatoria X . Esta funci on caracteriza la distribuci on probabilidad en el espacio muestral de la variable X . De su propia denici on deducimos que la funci on de distribuci on es no decreciente, continua por la derecha y
x
Manuales Uex
84
{ET 4&ET 5}. Como s olo son tres los posibles valores que toma la variable ciadas, dependen de las probabilidades de los sucesos elementales asignados a cada valor. Si asumimos que todos los sucesos del experimento son equiproba 0 1 bles, entonces la funci on de distribuci on de la variable aleatoria X es si si si si x < 0, pues P (X < 0) = 0 0 x < 1, pues P (X < 1) = P (X < 0) + P (X = 0) 1 x < 2, pues P (X < 2) = P (X < 1) + P (X = 1) x 2, pues P (X 2) = 1.
{ET 2&ET 5} y el valor 2 a los sucesos {ET 3&ET 4}, {ET 3&ET 5},
F (x) =
10
7 10 1
Manuales Uex 85
0.6
0.8
1.0
1 x
Figura 4.1: Funci on de distribuci on para la variable aleatoria X considerada en el Ejemplo 4.1. Su representaci on gr aca se muestra en la Figura 4.1. Observemos que como la variable aleatoria s olo toma un n umero nito de valores, la funci on de distribuci on es escalonada con saltos en dichos valores. Asimismo, la gr aca muestra las propiedades anteriormente descritas de la funci on de distribuci on. En el siguiente ejemplo, consideramos una variable aleatoria continua. Ejemplo 4.2 Consideramos el experimento aleatorio, descrito en el Ejemplo 3.2, consistente en medir con un distanci ometro con apreciaci on en mil metros una distancia calibrada de valor nominal 0 , medida en metros. En este caso el conjunto de sucesos elementales son mediciones. Para cada medici on, denimos la variable aleatoria X error en mil metros cometido en dicha medici on, donde el signo positivo lo interpretamos que la medici on es superior a 0 y el signo negativo lo interpretamos que la medici on es inferior a 0 . Si suponemos que la mitad de las mediciones proporcionada por el aparato subvalora la distancia calibrada y la otra mitad la sobrevalora, entonces obtenemos que P (X 0) = 1/2 y P (X > 0) = 1 P (X 0) = 1/2. Una funci on de distribuci on que describe esta situaci on puede ser 0 si x < 10 x2 + x + 1 si 10 x < 0 10 2 F (x) = 200 2 x x 1 + + si 0 x < 10 200 10 2 1 si x 10,
Manuales Uex 86
0.6
0.8
1.0
10
0 x
10
15
Figura 4.2: Funci on de distribuci on para la variable aleatoria X considerada en el Ejemplo 4.2. pues F (0) = 0.5. Adem as, a partir de la funci on de distribuci on, podemos calcular las siguientes probabilidades P (X 10) = 0, P (X 10) = 1, P (X 5) = 7/8, P (X 5) = 1/8, P (X > 5) = 1 P (X 5) = 1/8, P (5 < X 5) = P (X 5) P (X 5) = 3/4. Observemos que la variable puede tomar cualquier valor entre -10 y 10 y por tanto es una variable aleatoria continua. En la Figura 4.2 representamos esta funci on de distribuci on.
4.2.1.
Funci on de probabilidad
La funci on de distribuci on valorada en x nos mide la incertidumbre de obtener un resultado para el cual el valor de la variable sea menor o igual que x. Este concepto generaliza al de frecuencia relativa acumulada denida para un conjunto de datos medidos en escala ordinal o num erica. A continuaci on, extendemos el concepto de frecuencia relativa de un conjunto de datos a una variable aleatoria X .
y la denotamos por p(), a la funci on que nos indica la probabilidad de cada uno de los valores de la variable X , es decir, para cada x R p(x) = P (X = x).
Manuales Uex 87
1.0
0.8
0.6
F(x)
0.4
0.5
0.6
0.7
1 x
Figura 4.3: Funci on de distribuci on (gr aco de la izquierda) y funci on de probabilidad (gr aco de la derecha) para la variable aleatoria X considerada en el Ejemplo 4.1. Si denotamos por {xn }n1 al espacio muestral de la variable aleatoria X , que no pertenece a dicho espacio muestral. Adem as, a partir de la funci on de distribuci on, tenemos que p(x1 ) = F (x1 ) y p(xn+1 ) = F (xn+1 ) F (xn ), n 1, es decir, la funci on de probabilidad nos mide la altura de los escalones de la funci on de distribuci on. Se verica que p(xn ) > 0 y
donde xn < xn+1 para todo n 1, entonces p(x) = 0 para todo valor x
p(xn ) = 1.
n=1
Con la notaci on utilizada, hemos supuesto impl citamente que el valor m nimo de la variable, x1 , se puede determinar. En ocasiones esto no es posible, pero los resultados anteriores siguen siendo v alidos sin m as que modicar convenientemente la notaci on. Ejemplo 4.3 Para la variable aleatoria X considerada en el Ejemplo 4.1 teterminada por nemos que {0, 1, 2} es el espacio muestral y la funci on de probabilidad est a dep(0) =
Manuales Uex 88
1 6 3 , p(1) = y p(2) = . 10 10 10 En el gr aco de la izquierda de la Figura 4.3 mostramos la funci on de distribuci on de la variable aleatoria X y en el gr aco de la derecha su funci on de probabilidad, donde observamos la relaci on con la funci on de distribuci on.
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0.0
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Figura 4.4: Diagramas de barras para los conjuntos de datos obtenidos cuando el n umero de repeticiones del experimento es 100 (gr aco de la izquierda), 1000 (gr aco central) y 10000 (gr aco de la derecha), considerados en el Ejemplo 4.3. Notemos que el gr aco correspondiente a la funci on de probabilidad se asemeja en forma a un diagrama de barras, donde en lugar de frecuencias relativas representamos probabilidades. Asimismo, los diagramas de barras aproximan el comportamiento de la funci on de probabilidad a medida que las repeticiones del experimento aumentan, tal y como mostramos en la Figura 4.4, donde el n umero de repeticiones considerado son 100 (gr aco de la izquierda), 1000 (gr aco central) y 10000 (gr aco de la derecha). Consecuentemente ponemos de maniesto que la frecuencia relativa de un suceso aproxima a la probabilidad de dicho suceso.
Notemos que, conocida la funci on de distribuci on, hemos obtenido la funci on de probabilidad. Asimismo, la funci on de distribuci on queda determinada a partir de la funci on de probabilidad como sigue si x < x1 0 n F (x) = p(xk ) si xn x < xn+1 , n 1.
k=1
As , a partir de ahora, determinar una variable aleatoria discreta consiste en especicar su espacio muestral y la funci on de probabilidad asociada a los valores de dicho espacio muestral.
Manuales Uex 89
4.2.2.
Funci on de densidad
Si la variable aleatoria es continua, la probabilidad asociada a un valor de su espacio muestral debe ser cero, pues el conjunto de posibles valores es de cardinal innito no numerable y todas las probabilidades suman la unidad. Por ello, en esta situaci on, no es de inter es determinar la probabilidad de que la variable tome un valor concreto sino m as bien la probabilidad de que la variable valores en un rango determinado por un intervalo. M axime cuando las variables aleatorias continuas est an asociadas a experimentos de naturaleza cuantitiva continua discretizados por la apreciaci on en la observaci on. En la situaci on descrita en el Ejemplo 4.2, donde la variable aleatoria determina el error cometido por un distanci ometro con apreciaci on en mil metro al medir una distancia calibrada 0 , dos valores consecutivos de los errores obtenidos distan al menos un mil metro. Ahora bien, al realizar una medici on y obtener el error, por ejemplo 2 mil metros, esto no nos indica que el error cometido haya sido de 2 mil metros sino m as bien que el error cometido lo aproximamos a 2 mil metros con una apreciaci on de un mil metro, es decir, el error cometido real no observable est a entre 1.5 y 2.5 mil metros, sin determinar exactamente su magnitud debido a la discretizaci on de la medici on. Por ello la variable que modeliza esta situaci on la consideramos de tipo continua y estamos interesados en determinar la probabilidad de que el error real cometido se encuentre en el intervalo comprendido entre 1.5 y 2.5 mil metros, m as que la probabilidad de que el error sea el valor observado 2. Ahora bien, intervalos diferentes con la misma longitud pueden tener probabilidades distintas. Esto nos lo determina la funci on de densidad de la variable aleatoria continua X . La denotamos por f () y la denimos como la probabifunci on de distribuci on en cada punto. La calculamos, siempre que sea posible, como f (x) = F (x) = lim P (x h X x + h) , x R, 2h lidad por unidad de medida de la variable, es decir, nos mide como crece la
Manuales Uex
siendo F () la funci on derivada de F (). Observemos que la funci on de densiprobabilidad del intervalo denido por los valores x h y x + h y su longitud 2h,
h0
90
cuando esta se acerca a cero. Por tanto, es posible que la funci on de densidad
1 F(x)
F(x)
f(x) x
Figura 4.5: Relaci on entre la funci on de distribuci on y la funci on de densidad. pueda valer m as de 1 en alg un punto. De su denici on, deducimos que la funci on de distribuci on F () es una primitiva de f (). Como limx F (x) = 0,
En la Figura 4.5, mostramos la relaci on entre la funci on de distribuci on y la funci on de densidad de una variable aleatoria continua. Consecuentemente, para cualesquiera valores x1 , x2 R, tales que x1 < x2 , tenemos que x2 f (x)dx. P (x1 < X x2 ) = F (x2 ) F (x1 ) =
x1
podemos utilizar la funci on de densidad para el c alculo de probabilidades como x f (y )dy. P (X x) = F (x) =
Intuitivamente, el area bajo la curva denida por la funci on de densidad hasta el punto x representa la probabilidad de que la variable tome un valor igual o inferior a x, como mostramos en el gr aco de la izquierda de la Figura 4.6. Asimismo, la probabilidad de un intervalo es el a rea delimitada por la funci on de densidad en dicho intervalo, como mostramos en el gr aco de la derecha de la Figura 4.6. Si existe la funci on de densidad en un punto x, entonces tenemos que la funci on de distribuci on es continua en ese punto, por ser derivable. Adem as, tenemos que P (X = x) = 0. Debido a esto, a la hora de calcular probabilidades de intervalos a partir de la funci on de densidad no inuye incorporar los extremos, es decir, P (x1 X x2 ) = P (x1 < X x2 ) = P (x1 X < x2 ) = P (x1 < X < x2 ).
Manuales Uex 91
0.4
0.3
F(x)
f(x)
0.2
P (X 2 )
0.1 0.1
0.2
0.3
0.4
P ( 2 X 2 )
0.0
0 x
0.0 3
0 x
Figura 4.6: Uso de la funci on de densidad de una variable aleatoria para el c alculo de probabilidades. Asimismo la funci on de densidad hereda las propiedades de la funci on de distribuci on como sigue. El area total encerrada por la funci on de densidad es uno, pues
Adem as, como la funci on de distribuci on es no decreciente, entonces la funci on de densidad es no negativa, nula en un punto si este no pertenece al espacio muestral. Cuanto mayor sea el valor de la funci on de densidad en un punto, mayor probabilidad para que la variable tome valores cercanos a dicho punto. Ejemplo 4.4 Como la funci on de distribuci on de la variable aleatoria X considerada en Ejemplo 4.2 es derivable, obtenemos la siguiente expresi on de su funci on de densidad 0 x
100 + x + 100 0 1 10 1 10
f (x) =
si si si si
Manuales Uex 92
(gr aco de la derecha) frente a la funci on de distribuci on (gr aco de la izquierda) de la variable aleatoria X . Observemos que la funci on de densidad es positiva en el intervalo denido por los valores -10 y 10, que determina el espacio muestral de la variable aleatoria continua. Sobre el espacio muestral, la funci on de densidad no es contante, alcanzando su m aximo en el cero. De
0.8
F(x)
0.6
0.4
0.10
0.15
1.0
10
0 x
10
15
Figura 4.7: Funci on de distribuci on (gr aco de la izquierda) y funci on de densidad (gr aco de la derecha) para la variable aleatoria considerada en el Ejemplo 4.2. este hecho deducimos que intervalos con la misma longitud no tienen necesariamente la misma probabilidad. Por ejemplo, P (0 < X < 5) =
5
f (x)dx =
10
f (x)dx =
1 . 8
Teniendo en cuenta estas probabilidades, podemos calcular probabilidades condicionadas. Por ejemplo si conocemos que el error en la medici on es positivo, entonces tenemos una probabilidad de 0.75 de que sea menor de 5 unidades pues P (0 X 5|X 0) = P (0 X 5) 3 = . P (X 0) 4
Observemos que la funci on de densidad se asemeja al histograma de un conjunto de datos d onde se representan las frecuencias relativas convenientemente normalizadas para que la suma de las areas de todos los rect angulos que lo constituyen sea la unidad. Concretamente, cuando el n umero de repeticiones del experimento es sucientemente grande y la base de los rect angulos es sucientemente peque na obtenemos que la distribuci on del histograma se aproxima a la funci on de densidad. Este comportamiento se muestra en la Figura considerada en el Ejemplo 4.2 junto a un histograma de un conjunto de datos obtenido cuando el n umero de repeticiones del experimento aleatorio es 1000 (gr aco de la izquierda) y 10000 (gr aco de la derecha). Esta propiedad la derivamos de la propia denici on de la funci on de densidad, pues si la base del 4.8 donde representamos la funci on de densidad de una variable aleatoria X
Manuales Uex 93
0.15
0.10
f(x)
0.05
0.10
0.15
10
0 x
10
15
Figura 4.8: Funci on de densidad de la variable aleatoria considerada en el Ejemplo 4.2, junto a un histograma de un conjunto de datos obtenido cuando el n umero de repeticiones del experimento aleatorio es 1000 (gr aco de la izquierda) y 10000 (gr aco de la derecha). rect angulo con centro x es sucientemente peque na, el area de dicho rect angulo lo aproximamos por P (x h < X < x + h) 2hf (x). De la expresi on anterior deducimos que si multiplicamos el valor de la funci on de densidad en x por la longitud de un intervalo peque no centrado en x, obtenemos una aproximaci on de la probabilidad de que la variable se encuentre en dicho intervalo.
4.2.3.
En muchas ocasiones no s olo estamos interesados en la distribuci on de la variable aleatoria X , sino en una transformaci on de la propia variable, Y = g (X ), siendo g () una funci on real. Como X es una variable aleatoria, Y es otra variable aleatoria cuya funci on de distribuci on la podemos determinar en algunas situaciones a partir de la funci on de distribuci on de la variable X . Ejemplo 4.5 Supongamos que para la situaci on descrita en el Ejemplo 4.2, estamos interesados s olo en la magnitud del error y no en el signo de este. La variable que describe su comportamiento aleatorio es Y = |X |, donde X es la variable aleatoria asociada al error. As , el espacio muestral de esta nueva variable es el conjunto de valores comprendido entre 0 y 10. Como Y es una variable no negativa, entonces para valores y < 0 P (Y y ) = 0.
Manuales Uex 94
F(y)
0.15
0.6
0.20
0.8
0.25
1.0
5 y
10
15
Figura 4.9: Funci on de distribuci on (gr aco de la izquierda) y funci on de densidad (gr aco de la derecha) de la variable aleatoria Y = |X |, siendo X la variable aleatoria considerada en el Ejemplo 4.2. En cambio, si y 0, tenemos que P (Y y ) = P (y X y ) = F (y ) F (y ) + P (X = y ). Con todo ello, deducimos que la funci on de distribuci on y la funci on de densidad de la variable Y admiten, respectivamente, las expresiones si y < 0 si y < 0 0 0 2 y y 1 y f ( y ) = P (Y y ) = 100 + si 0 y < 10 +y si 0 y < 10 50 5 5 0 si y 10, 1 si y 10
En el gr aco de la izquierda de la Figura 4.9 mostramos la funci on de distribuci on y en el gr aco de la derecha la funci on de densidad de la variable aleatoria Y . En ambos gr acos podemos observar que el espacio muestral est a comprendido entre 0 y 10. A partir de estas funciones obtenemos, por ejemplo, que P (0 Y 5) = 3/4. Obviamente, este valor corresponde a la probabilidad de que la variable aleatoria X se encuentre en el intervalo denido por los valores -5 y 5.
4.3.
Como hemos comentado anteriormente, el conocimiento de la funci on de probabilidad o de la funci on de densidad determina un vocamente, seg un su naturaleza, la estructura probabil stica asociada a una variable aleatoria. A continuaci on, denimos medidas caracter sticas de una variable aleatoria que sintetizan el comportamiento de la misma, aunque no lo determinan de manera
4.3.1.
Medidas de centralizaci on
La medida de centralizaci on m as utilizada de una variable aleatoria X es la media o esperanza matem atica, que para el caso discreto se dene como =
i=1
xi p(xi ),
es la misma que la de la media muestral de un conjunto de datos, donde ahora consideramos todos los posibles valores de la variable y sustituimos las frecuencias relativas por las probabilidades, es decir, la media ponderada de todos los posibles valores, cada uno de ellos ponderado por su probabilidad asociada. Por tanto, la media proporciona el centro de gravedad de la funci on de probabilidad. Observemos que la media se mide en las mismas unidades que los valores que toma la variable aleatoria.
Manuales Uex 96
Intuitivamente tenemos que en diez sesiones pr acticas el n umero esperado de estaciones totales bien calibradas entre los dos grupos es 12. Para el caso continuo, denimos la media o el valor esperado de la variable aleatoria X como =
xf (x)dx,
donde hemos reemplazamos las probabilidades del caso discreto por la funci on de densidad y el sumatorio por un signo integral (sumas innitas no contables), en el sentido de sumar cada valor por su peso en la poblaci on. Ejemplo 4.7 Como la funci on de densidad de la variable aleatoria continua considerada en el Ejemplo 4.2 admite la expresi on 0 x si si si si x < 10 10 x < 0 0 x < 10 x 10,
Observemos que cuando realizamos mediciones con el distanci ometro cometemos errores, posiblemente de magnitudes no nulas, pero en promedio estos se compensan.
Manuales Uex 97
10
x2 x + 100 10
dx = 0 mm.
Ejemplo 4.8 Teniendo en cuenta la funci on de densidad de la variable aleatoria continua Y considerada en el Ejemplo 4.5, calculamos su valor esperado mediante la expresi on 10 yfY (y )dy =
0 10
Obviamente, el valor obtenido es el mismo que el calculado a partir de su funci on de densidad. En la pr actica, utilizamos un procedimiento u otro, dependiendo de la funci on de densidad que conozcamos. Como sucede con la media muestral, la media tiene el inconveniente de verse afectada por la presencia de valores cuya magnitud sea diferente a la del resto. Una medida de centralizaci on apropiada para esta situaci on es la mediana que denimos como un valor num erico que deja a cada lado un 50 % de la probabilidad. La calculamos como el valor m tal que P (X < m) 0.5 y P (X m) 0.5. Para el caso continuo obtenemos que m f (x)dx =
m
Sin embargo, como Y = |X |, siendo X la variable aleatoria descrita en el Ejemplo 4.2, podemos calcular el valor esperado de la variable Y a partir de la funci on de densidad de la variable X mediante la expresi on 2 10 0 10 x x x x2 10 + + mm. |x|fX (x)dx = dx + dx = 100 10 100 10 3 10 10 0
y2 y + 50 5
dy =
10 mm. 3
f (x)dx = 0.5
Manuales Uex 98
De su denici on, se deduce que la mediana es u nica para el caso continuo y puede no serlo para el caso discreto, pues si tenemos una variable aleatoria que toma el valor 0 con probabilidad 0.5 y el valor 1 probabilidad 0.5, entonces cualquier valor entre 0 y 1 puede considerarse como la mediana.
0.75 10 + 5 2
f(x)
0.8
0.15
1.0
F(x)
0.4
0.6
10 + 5 2
10 5 2
0.25
0.2
10 5 2
0.00
0.05
0.10
0.25
15 15 10 5
0.50
0 x
0.25
5 10 15
0.0 15
10
0 x
10
Figura 4.10: C alculo del primer y tercer cuartil para la variable aleatoria descrita en el Ejemplo 4.2. Ejemplo 4.9 Para la variable aleatoria discreta considerada en el Ejemplo 4.1 tenemos que el valor de la mediana es 1, pues F (0) = 0.1 y F (1) = 0.7. Por otro lado, para la variable aleatoria considerada el Ejemplo 4.2 la mediana es el 0, pues F (0) = 0.5 y la variable es continua.
4.3.2.
Medidas de posici on
Generalizando el concepto de mediana, denimos el cuantil de orden p de la variable aleatoria X , con 0 p 1, como un valor mp tal que P (X < mp ) p y P (X mp ) p. De su denici on, deducimos que es una medida de posici on que coincide con la mediana cuando p = 0.5. Casos particulares son el primer cuartil y el tercer cuartil, que corresponde a los cuantiles de orden 0.25 y 0.75, respectivamente. Ejemplo 4.10 Para la variable aleatoria continua considerada en el Ejemplo 4.2, obtenemos que el primer cuartil es 10 + 5 2 y el tercer cuartil 10 5 2, dado que F (10 + 5 2) = 0.25 y F (10 5 2) = 0.75. En la Figura 4.10
Manuales Uex 99
4.3.3.
Medidas de dispersi on
Como en el estudio descriptivo de un conjunto de datos, la distancia entre el primer y el tercer cuartil denen una medida de dispersi on que la denominamos rango intercuart lico. Observemos que la variable aleatoria toma un valor en dicho rango con probabilidad 0.5. Asimismo, denimos rango o amplitud a la distancia entre el valor m nimo y el m aximo del espacio muestral de la variable aleatoria. Notemos que si el espacio muestral es no acotado, entonces el rango es innito. Medidas de dispersi on que toman como referencia medidas centrales son la varianza, la desviaci on t pica y la meda de una variable aleatoria. Denotamos la varianza por 2 y la denimos como el valor esperado de las distancias al cuadrado de los valores de la variable a la media. Seg un sea la variable aleatoria discreta o continua, tenemos la siguiente expresi on de la varianza 2 2 = (xi ) p(xi ) o =
2 i=1
(x )2 f (x)dx,
donde denota la media de la variable aleatoria X . De la propia denici on de varianza deducimos que es un valor no negativo, nulo si y s olo si el espacio muestral de la variable est a formado por un u nico valor, es decir, la variable es degenerada en dicho valor y por tanto no aleatoria. Las unidades en las que expresamos la varianza son el cuadrado de las unidades en las que se expresa la variable aleatoria. Por ello, denimos la desviaci on t pica de una variable aleatoria como la ra z cuadrada de la varianza y la denotamos por . Adem as, una medida de dispersi on adimensional (no depende de la unidades de medida), u til para comparar la dispersi on entre variables, es el coeciente de variaci on, que lo denimos como el cociente entre la desviaci on t pica y el valor absoluto de la media, siempre que esta sea no nula.
Manuales Uex
Ejemplo 4.11 Calculamos la varianza de la variable aleatoria discreta considerada en el Ejemplo 4.1, como 2 = 0 6 5 2 2 2 6 6 9 1 6 3 + 1 + 2 = . 10 5 10 5 10 25
100
positiva mayor que uno, sin necesidad de conocer su funci on de distribuci on. Concretamente tenemos que P ( k < X < + k ) 1 1 . k2
Esta expresi on se denomina desigualdad de Tchebychev. Particularizando para k = 2 y 3, deducimos que, independientemente de la distribuci on de la variable, P ( 2 < X < + 2 ) 8 3 y P ( 3 < X < + 3 ) . 4 9
Observemos que la desigualdad de Tchebychev proporciona una cota inferior para la probabilidad de que la variable se encuentre en un intervalo centrado en la media. Dicha cota se aproxima a 1 a medida que crece la amplitud del intervalo. Ejemplo 4.12 Como para la variable aleatoria considerada en el Ejemplo 4.1, hemos obtenido que = 6/5 y 2 = 9/25, entonces, aplicando la desigualdad de Tchebychev para k = 2, tenemos que 6 3 6 3 3 P 2 <X < +2 = P (X 1), 4 5 5 5 5 es decir, la probabilidad de que al menos un grupo trabaje con una estaci on total bien calibrada es mayor o igual que 0.75. En realidad sabemos que esta probabilidad vale 9/10. Este resultado lo podemos expresar en t erminos de su complementario como sigue 6 1 6 = P (X = 0). X P 4 5 5
101
Manuales Uex
En este caso sabemos que este probabilidad vale 2 2/ 3 2/3. Si tomamos k = 3, obtenemos que 8 P 5 6 < X < 5 6 , 9 que en este caso es irrelevante puesto que conocemos que el espacio muestral se encuentra entre -10 y 10.
Si la varianza es una medida de dispersi on que toma como referencia a la media, la meda es una medida de dispersi on asociada a la mediana. La denimos como la mediana de la diferencia en valor absoluto entre los valores de la variable y la mediana. A partir de esta denici on es f acil deducir que en el intervalo centrado en la mediana de la variable y con amplitud dos veces la meda se encuentra al menos el 50 % de la distribuci on de la variable. Ejemplo 4.13 Como la mediana de la variable aleatoria X considerada en el Ejemplo 4.2 es nula, tenemos que la meda de dicha variable es la mediana de la variable Y = |X |, descrita en el Ejemplo 4.5. Adem as, como Y es una variable aleatoria continua y FY (10 5 2) = 0.5, siendo FY () su funci on de distribuci on, deducimos que la mediana de Y es 10 5 2, y por tanto, la meda de X . Observemos que, en esta situaci on, la meda es la mitad del rango intercuart lico. As , el intervalo denido por el primer y el tercer cuartil es el mismo que el que obtenemos a partir de la mediana y la meda.
102
Manuales Uex
0.25
0.15
0.20
0.15
0.10
f(y)
f(x)
0.10
f(y)
0.05
0.05
0.00
0.00
15
10
5 y
15
10
0 x
10
15
0.00
0.05
0.10
0.15
0.20
0.25
5 y
10
15
4.3.4.
Medidas de forma
El coeciente de asimetr a nos indica la simetr a de los valores de la variable con respecto a su valor esperado. Es una medida de forma y la denimos como la esperanza de la diferencia al cubo entre la variable y la media, dividido por la desviaci on t pica al cubo. De su denici on deducimos que el coeciente de asimetr a es adimensional y tiene signo. Un valor negativo (positivo) nos indica una asimetr a a la izquierda (derecha) de la variable con respecto a su media, pues, las desviaciones negativas (positivas) que corresponden a valores peque nos (grandes) pesan m as que las desviaciones positivas (negativas) que corresponden a valores grandes (peque nos). Un coeciente de asimetr a nulo nos indica una simetr a perfecta en la distribuci on de los valores de la variable con respecto a su media , es decir, P (X x) = P (X + x), para cualquier valor positivo x. En la Figura 4.11 mostramos las funciones de densidad de las variables Y (gr aco de la izquierda), X (gr aco central) e 4.2 y Ejemplo 4.5, respectivamente. Observamos que la variable aleatoria Y Y (gr aco de la derecha), siendo X e Y las variables descritas en el Ejemplo tiene un coeciente de asimetr a negativo, que se maniesta con la presencia de una cola hacia valores peque nos de la variable, X un coeciente de asimetr a nulo, pues su funci on de densidad es sim etrica con respecto a la media e Y un coeciente de asimetr a positivo, que se maniesta con la presencia de una cola hacia valores grandes de la variable.
103
Manuales Uex
0.15
0.10
f(x)
0.05
f(x)
F(5)
0.00 15 10 5 0 x 5 10 15 0.00 15 10 5
0.05
0.10
0.15
F(5)
0 x 5 10 15
Figura 4.12: C alculo de probabilidades en variables sim etricas. Finalmente, notemos que conocida la media de una variable aleatoria sim etrica, el c alculo de probabilidades se simplica teniendo en cuenta la igualdad P (X x) = P (X + x). As , para la variable aleatoria sim etrica X considerada en el Ejemplo 4.2, hemos obtenido que = 0, y por tanto, tenemos que P (X 5) = 1 P (X 5), como mostramos en la Figura 4.12.
4.3.5.
Manuales Uex
Al realizar una transformaci on de una variable aleatoria X , las medidas caracter sticas de la variable resultante, Y , no son en general la transformaci on de las medidas caracter sticas de la variable transformada. Observemos que las medidas caracter sticas de la variable X descrita en el Ejemplo 4.2 no est an relacionadas con las medidas caracter sticas de la variable aleatoria Y del Ejemplo 4.5, a pesar de que Y = |X |. En cambio, las medidas caracter sticas de X e Y s est an relacionadas si la dependencia es de tipo lineal, es decir, Y = aX + b con a, b R. Intuitivamente, a signica que hemos realizado un cambio de escala en las unidades de la variable X y b lo interpretamos como una traslaci on de todos los valores de la variable. En esta situaci on, tenemos que la media de la variable Y , Y , depende de la media de la variable aleatoria X , X , de la misma manera, es decir, Y = aX + b.
104
tivamente. Asimismo, la meda de la variable Y la calculamos como el valor absoluto de a multiplicado por la meda de la variable X . Finalmente, tenemos que el coeciente de variaci on y el coeciente de asimetr a no est an afectados por la transformaci on lineal, salvo por el signo de a. Un caso especial de transformaci on lineal y de gran inter es pr actico es la tipicaci on. Dada una variable aleatoria X con media y desviaci on t pica , tipicar la variable X consiste en aplicar la transformaci on Y = X .
La variable Y se caracteriza por tener media 0 y varianza 1. Ejemplo 4.14 Si consideramos la transformaci on Y = 0.1X , siendo X la variable aleatoria descrita en el Ejemplo 4.2, entonces Y es una variable aleatoria que nos determina en cent metros el error cometido en cada medici on. A partir de las medidas caracter sticas de X y teniendo en cuenta que Y es una transformaci on lineal de X con a = 0.1 y b = 0, obtenemos las medidas caracter sticas de Y sin necesidad de conocer su funci on de densidad, tal y como mostramos en el Cuadro 4.1. Como hemos comentado, si la variable Y no es una transformaci on lineal de la variable aleatoria X , entonces las medidas caracter sticas de Y no se obtienen en general como funci on de las medidas caracter sticas de X . Si no conocemos la funci on de distribuci on de la variable aleatoria Y , podemos aproximar sus medidas caracter sticas a partir de las medidas caracter sticas de la variable aleatoria X , utilizando la aproximaci on lineal de la transformaci on proporcionada por el desarrollo de Taylor hasta el primer orden. Concretamente, si Y = g (X ), siendo g () una funci on derivable en X , tenemos que Y g (X ) + g (X )(X X ),
105
Manuales Uex
Medidas
0 0 10 + 5 2 10 5 2 50/3 10 5 2 nulo
Cuadro 4.1: Medidas caracter sticas de la variable aleatoria Y = 0.1X obtenidas a partir de la variable aleatoria X , siendo X la variable descrita en el Ejemplo 4.2. on derivada de g (). As , teniendo en cuenta las exdonde g () denota a la funci que
2 2 (g (X ))2 X . Y g (X ) y Y 2 Observemos que g (X ) y (g (X ))2 X son una aproximaci on de la media y la
varianza, respectivamente, de la variable aleatoria Y , u til cuando no conocemos o es dif cil calcular su funci on de distribuci on. Esta aproximaci on depende de la distribuci on de la variable aleatoria X s olo a trav es de sus medidas caracter sticas. Si la transformaci on es de tipo lineal, la aproximaci on es exacta. Como ilustramos en el siguiente ejemplo, la aproximaci on de la media y la varianza de transformaciones no lineales tiene gran inter es pr actico para describir el comportamiento probabil stico de observaciones indirectas, conocida la distribuci on de la observaci on directa que la dene.
Ejemplo 4.15 Supongamos que estamos interesados en determinar el comportamiento del error de medici on del a rea de un c rculo de radio nominal 5 metros, cuando en la medici on del radio utilizamos el distanci ometro descrito en el Ejemplo 4.2. Como la variable aleatoria X describe el comportamiento
Como el valor esperado de los errores del radio es nulo, entonces la media de los errores del area tambi en est a pr oxima a 0.
4.4.
Pr acticas de laboratorio
Para estudiar el comportamiento probabil stico de la variable aleatoria descrita en el Ejemplo 4.1, utilizamos las sentencias: Funci on de distribuci on y de probabilidad x<--1:3; Fx<-c(0,.1,.7,1,1); px<-c(0,0.1,0.6,.3,0) plot(x, Fx, xlim=c(-1.25,3.25), ylab="F(x)", type="s") plot(x, px, xlim=c(-1,3), ylab="p(x)",type="h", lwd=4) Generar 100 valores de la variable aleatoria library(e1071); x<-rdiscrete(100, c(.1,.6,.3), 0:2) Representar el diagrama de barras barplot(table(x)/length(x), col=0, ylim=c(0,0.7)) abline(h=c(.1,.6,.3), lty=2)
107
Manuales Uex
plot(x<-seq(-10,0,0.01), fd1(x), type="l", xlab="x", ylab="f(x)", xlim=c(-15,15), ylim=c(0,.15)) lines(x<-seq(0,10,0.01), fd2(x)); lines(c(10,15), c(0,0)) lines(c(-15,-10), c(0,0))
4.5.
Cuestiones y problemas
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) Dos variables aleatorias discretas que tienen la misma media y la misma varianza tienen tambi en la misma funci on de probabilidad. ii) La funci on de probabilidad de una variable aleatoria discreta asigna a cada valor num erico x la probabilidad de que la variable tome un valor menor o igual a x. iii) El a rea bajo la funci on de distribuci on de una variable aleatoria continua es uno. iv) Si una variable aleatoria discreta toma s olo un valor, su varianza es nula. v) Si a todos los valores del espacio muestral de una variable aleatoria le sumamos el mismo valor, la mediana no var a. vi) Si una variable aleatoria discreta toma s olo un valor, su media y mediana coinciden. vii) El valor medio asociado a la variable aleatoria que describe las mediciones de una distancia expresada en mil metros es mil veces mayor que el valor medio asociado a la variable aleatoria que describe las mediciones de una distancia expresada en metros. 2. Discutir razonadamente cu al de las funciones de densidad mostradas en la Figura 4.13 est a asociada a una variable aleatoria continua sim etrica con mediana nula. 3. Supongamos que el comportamiento aleatorio del error en la medici on de un de densidad k (1 x2 ) f (x) = 0
109
Manuales Uex
a ngulo con un teodolito es descrito por una variable aleatoria X con funci on
0.15
0.10
0.20
0.25
f(x)
f(x)
0.15
0.05
0.10
0.00
10 x
15
20
25
0.10
0.15
10
0 x
10
15
Figura 4.13: Funciones de densidad para la variable aleatoria considerada en el Problema 2. ii) Determinar y representar la funci on de densidad de la variable aleatoria X. iii) Calcular la funci on de distribuci on de la variable aleatoria X . iv) Calcular la media y la varianza de la variable aleatoria X . v) Determinar P (0.5 X 0.5). Contrastar este valor con la cota proporcionada por la desigualdad de Tchebychev.
4. Supongamos que de las 5 estaciones totales disponibles en el almac en del Centro Universitario de M erida para realizar las pr acticas de campo de una determinada asignatura hay 2 que est an mal calibradas. Supongamos tambi en que dichas pr acticas se realizan en dos sesiones distintas, en las que un grupo escoge al azar en cada sesi on una estaci on total de entre las cinco existentes. Denotemos por X a la variable aleatoria que describe el n umero de estaciones totales bien calibradas seleccionadas por el grupo de pr acticas. i) Determinar y representar la funci on de distribuci on y de probabilidad asociada a la variable aleatoria X . ii) Determinar la media y la varianza de la variable aleatoria X .
Manuales Uex
iii) Calcular la probabilidad de que al menos en las dos sesiones se trabaje con una estaci on total bien calibrada. iv) Determinar y representar la funci on de distribuci on y de probabilidad de la variable aleatoria 2 X .
110
ii) Calcular la funci on de distribuci on de la variable aleatoria X . iii) Calcular la media y la mediana de la variable aleatoria X . Interpretar los resultados. iv) Determinar P (5 X 0), P (0 X 10), P (2 X 0) y P (0 X 2). Interpretar los resultados. 6. Si la variable aleatoria considerada en el Ejemplo 4.2 describe el comportamiento probabil stico del error expresados en mil metro de las mediciones del lado de un cubo de valor nominal 5 m., aproximar la media y la varianza de la variable aleatoria que describe el comportamiento probabil stico del error expresado en mil metros c ubicos de las mediciones del volumen de dicho cubo. 7. Con el n de valorar las aproximaciones proporcionadas en el Ejemplo 4.15 de las medidas caracter sticas de los errores asociados a la medici on de area de un c rculo de radio 5 m., calcular la media muestral y la varianza muestral de un conjunto de errores simulados, utilizando para ello el software estad stico R. Cu al es el comportamiento de las medidas caracter sticas de los errores de medici on asociados a su per metro?
111
Manuales Uex
En el tema anterior, hemos modelizado cuantitativamente los resultados de un experimento aleatorio asociado a un car acter, utilizando para ello los conceptos de probabilidad y de variable aleatoria. Sin embargo, asociado a un mismo experimento podemos considerar varios caracteres con sus respectivas variables aleatorias. En general, el estudio individualizado de cada una de las variables no describe el comportamiento probabil stico conjunto de todas ellas. Por este motivo, en este tema, introduciremos el concepto de vector aleatorio, que generaliza al de variable aleatoria. Asimismo, denimos la funci on de probabilidad y la funci on de densidad de un vector aleatorio que determinan la distribuci on conjunta de las variables que lo forman. En base a esta distribuci on podemos establecer si las coordenadas del vector aleatorio est an relacionadas o por el contrario son independientes. En caso de estar relacionadas, introduciremos medidas del grado de asociaci on entre ellas. Estas medidas son an alogas a descriptivamente caracteres cuantitativos. Finalmente, a partir del comportamiento probabil stico de un vector aleatorio estudiaremos el comportamiento de ciertas transformaciones del mismo, lo que resultar au til en el caso de caracteres que s olo podamos observar indirectamente y cuyo estudio se basa en las medidas de asociaci on muestrales expuestas en el Tema 2 para analizar
113
Manuales Uex
5.2.
Vector aleatorio
Como hemos comentado anteriormente, cuando dos caracteres est an asociados a los resultados de un mismo experimento aleatorio, obtenemos dos variables aleatorias, una por cada car acter. En ocasiones, el valor que asigna una variable a un resultado puede determinar el valor que asigna la otra variable a dicho resultado. Ejemplo 5.1 Supongamos que en el experimento aleatorio descrito en el Ejemplo 4.1, adem as de estudiar la variable aleatoria X , n umero de estaciones totales bien calibradas de entre las dos seleccionadas, estamos interesados en estudiar la variable aleatoria Y , n umero de estaciones totales mal calibradas de entre las dos seleccionadas. Como dos son las estaciones totales mal calibradas y tres las bien calibradas, los valores que puede tomar la variael valor 2, el valor 1 es asociado a los sucesos {ET 1&ET 3}, {ET 1&ET 4}, cesos {ET 3&ET 4}, {ET 3&ET 5}, {ET 4&ET 5}. Por tanto, si asumimos que todos los sucesos del experimento son equiprobables, la funci on de probabilidad asociada a la variable aleatoria Y , independientemente de la variable X , admite la expresi on 3 6 1 , P (Y = 1) = y P (Y = 2) = . 10 10 10 {ET 1&ET 5}, {ET 2&ET 3}, {ET 2&ET 4}, {ET 2&ET 5} y el valor 0 a los suble aleatoria Y son 0, 1 y 2. Concretamente al suceso {ET 1&ET 2} le asigna
Manuales Uex
P (Y = 0) =
En el gr aco de la izquierda de la Figura 5.1 mostramos la funci on de distribuci on de la variable aleatoria Y y en el gr aco de la derecha su funci on de probabilidad.
114
1.0
0.8
0.6
F(y)
0.4
0.5
0.6
0.7
1 y
Figura 5.1: Funci on de distribuci on (gr aco de la izquierda) y funci on de probabilidad (gr aco de la derecha) de la variable aleatoria Y descrita en el Ejemplo 5.1. Observemos que, conocido el n umero de estaciones totales bien calibradas determinamos el n umero de estaciones totales mal calibradas. As , para el suceso {ET 1&ET 2} la variable aleatoria X le asigna el valor 0 y la variable aleatoria Y el valor 2. Concretamente se verica que Y = 2 X . As , conocida la funci on de probabilidad de una variable, determinamos la funci on de probabilidad de la otra variable (v ease Figura 4.3 y Figura 5.1). Sin embargo, en la mayor a de las situaciones, el valor que asigna una variable a un resultado del experimento no determina un vocamente el valor que asigna la otra variable, aunque s puede condicionarlo. Ejemplo 5.2 Supongamos que en el experimento aleatorio descrito en el Ejemplo 4.2, la variable aleatoria X corresponde al error en mil metros cometido en la medici on utiliz andose un distanci ometro anal ogico y consideramos otra variable aleatoria, Y , que corresponde al error en mil metros cometido en la medici on utiliz andose un distanci ometro digital. Supongamos que a la variable Y le asociamos la funci on de densidad 0 si y < 5 y +1 si 5 y < 0 f (y ) = 25 y 5 1 si 0 y < 5 + 25 5 0 si y 5.
Observemos que, conocidas las funciones de densidad de cada una de las variables aleatorias, no determinamos la distribuci on conjunta de los valores de
115
Manuales Uex
(X ( ), Y ( )).
La probabilidad asociada al experimento aleatorio se transere al conjunto R R de vectores num ericos a trav es de la funci on de probabilidad conjunta, si ambas variables aleatorias son discretas, o a trav es de la funci on de densidad conjunta, si ambas variables aleatorias son continuas. Si una variable es continua y la otra discreta, la funci on de distribuci on, similar a la denida para variables aleatorias, describe el comportamiento probabil stico conjunto de ambas variables.
5.2.1.
Si las dos variables aleatorias asociadas a un vector aleatorio son discretas, denimos la funci on de probabilidad conjunta del vector aleatorio (X, Y ) como p(x, y ) = P (X = x, Y = y ), x, y R. El conjunto de vectores que tienen asociada una probabilidad positiva constituye el espacio muestral del vector aleatorio. Notemos que cualquier combinaci on
de elementos de los espacios muestrales de las variables no es un vector del espacio muestral del vector aleatorio. Si denotamos por S al producto cartesiano1 de los espacios muestrales de cada variable, de la propia denici on de
1 Producto cartesiano de dos conjuntos A y B es el conjunto formado por todos los posibles pares donde el primer elemento pertenece a A y el segundo a B .
p(x, y ) = 1.
Ejemplo 5.3 Considerando las variables aleatorias X e Y descritas en el Ejemplo 5.1, obtenemos que el espacio muestral asociado al vector aleatoasigna el vector (0, 2), el vector (1, 1) se asocia a los sucesos {ET 1&ET 3}, vector (2, 0) a los sucesos {ET 3&ET 4}, {ET 3&ET 5}, {ET 4&ET 5}. Por ello, P (X = 0, Y = 2) = 6 3 1 , P (X = 1, Y = 1) = y P (X = 2, Y = 0) = . 10 10 10 {ET 1&ET 4}, {ET 1&ET 5}, {ET 2&ET 3}, {ET 2&ET 4}, {ET 2&ET 5} y el rio (X, Y ) es {(0, 2), (1, 1), (2, 0)}. Concretamente al suceso {ET 1&ET 2} le
A pesar que 2 pertenece al espacio muestral de ambas variable, el vector (2, 2) no es un elemento del espacio muestral del vector aleatorio. Esto pone de maniesto que a la hora de estudiar un vector aleatorio tenemos que considerar la funci on de probabilidad conjunta y no las funciones de probabilidad de cada variable. Sin embargo, en este caso particular, los valores de la funci on de probabilidad conjunta son los que intervienen en la funci on de probabilidad de cada variable. Esto es debido a la relaci on exacta existente entre las variables aleatorias X e Y .
5.2.2.
Para determinar el comportamiento probabil stico conjunto de dos variables aleatorias continuas, hacemos uso de la funci on de densidad conjunta del vector aleatorio (X, Y ). Como generalizaci on del caso de una variable, la funci on de denotamos por f (x, y ) y se caracteriza por ser no negativa y porque el volumen subyacente a la gr aca es uno, es decir, f (x, y )dydx = 1.
117
Manuales Uex
Figura 5.2: Funci on de densidad del vector aleatorio descrito en el Ejemplo 5.2. An alogamente al caso de variables aleatorias continuas, la funci on de densidad conjunta la utilizamos para el c alculo de probabilidades del vector aleatorio (X, Y ) como x2 y2 f (x, y )dydx, P (x1 < X x2 , y1 < Y y2 ) =
x1 y1
siendo x1 , x2 , y1 , y2 R, tales que x1 < x2 e y1 < y2 . As , el conjunto de vectores donde la funci on de densidad conjunta es no nula constituye el espacio muestral del vector aleatorio. Ejemplo 5.4 Para las variables aleatorias X e Y descritas en el Ejemplo 5.2, suponemos que la funci on de densidad conjunta es 0 si x < 10 0 si y < 5 y x 1 1 si 10 x < 0, 5 y < 0 + 10 25 + 5 y 100 x 1 1 +5 si 10 x < 0, 0 y < 5 + f (x, y ) = 100x 10 1 25 y 1 + + 10 25 5 si 0 x < 10, 5 y < 0 100 y x 1 100 + 10 25 + 1 si 0 x < 10, 0 y < 5 5 0 si y5 0 si x 10.
118
En este caso, el espacio muestral es el producto cartesiano de los espacios muestrales de las dos variables. Notemos que el valor de una variable no determina un vocamente el valor de la otra. En la Figura 5.2 mostramos la representaci on gr aca de la funci on de densidad. Observamos que al vector (0, 0) la funci on de densidad le asigna el m aximo valor. Por tanto, es m as probable que
Manuales Uex
10
0 x
10
4 10
0 x
10
Figura 5.3: Diagrama de dispersi on para conjuntos de datos de tama no muestral 1000 (gr aco de la izquierda) y tama no muestral 3000 (gr aco de la derecha) procedentes de repeticiones del experimento aleatorio descrito en el Ejemplo 5.4. el resultado del experimento se encuentre cercano a dicho vector. Este hecho lo ilustramos en la Figura 5.3 donde representamos el diagrama de dispersi on para conjuntos de datos de tama no muestral 1000 (gr aco de la izquierda) y tama no muestral 3000 (gr aco de la derecha), procedentes de repeticiones del experimento aleatorio. Del mismo modo que relacionamos en el tema anterior la funci on de probabilidad o de densidad de una variable aleatoria con las frecuencias relativas de un conjunto de datos asociado al experimento aleatorio, la funci on de probabilidad o de densidad conjunta de un vector aleatorio est a relacionada con las frecuencias relativas denidas en la tabla de contingencia asociada al conjunto de datos.
5.2.3.
Como ya hemos comentado, en general, conocer la distribuci on de cada una de las variables no es suciente para determinar la distribuci on conjunta. En cambio, a partir de la funci on de probabilidad o de densidad conjunta de un vector aleatorio (X, Y ), podemos calcular la distribuci on de cada una de las variables. A las funciones de probabilidad o de densidad de las variables aleatorias obtenidas a partir de la funci on conjunta las denominamos funciones de probabilidad marginales o funciones de densidad marginales, seg un corresponda. Estas funciones est an relacionas con las frecuencias relativas marginales
119
Manuales Uex
(x,y )S
(x,y )S
es decir, la probabilidad de que la variable aleatoria X (Y ) tome un valor concreto x (y ) es la suma de las probabilidades asociadas a todos los vectores del espacio muestral con primera (segunda) coordenada igual a x (y ). As , pX () y pY () son las funciones de probabilidades de las variables aleatorias X e Y , respectivamente.
Ejemplo 5.5 Teniendo en cuenta la funci on de probabilidad conjunta considerada en el Ejemplo 5.3, obtenemos que P (X = 0) = P (X = 0, Y = 2) = P (X = 1) = P (X = 1, Y = 1) = P (X = 2) = P (X = 2, Y = 0) = 3 1 , P (Y = 0) = P (X = 2, Y = 0) = , 10 10 6 6 , P (Y = 1) = P (X = 1, Y = 1) = , 10 10 1 3 , P (Y = 2) = P (X = 0, Y = 2) = . 10 10
En el Cuadro 5.1 mostramos una representaci on del espacio muestral del vector aleatorio (X, Y ) y de las variables aleatorias X e Y . Como ya hemos comentado, observemos que el valor de una variable determina un vocamente el valor de la otra.
Manuales Uex
De manera an aloga, cuando las dos variables aleatorias son continuas, calculamos las funciones de densidad marginales como fX (x) =
f (x, y )dy y fY (y ) =
120
f (x, y )dx.
Y |X 0 1 2
0 0 P (X = 0, Y = 2)
0 P (X = 1, Y = 1) 0
P (X = 2, Y = 0) 0 0
Cuadro 5.1: Representaci on del espacio muestral del vector aleatorio (X, Y ) y de las variables aleatorias X e Y descritas en el Ejemplo 5.1. Ejemplo 5.6 Considerando la funci on de densidad conjunta denida en el Ejemplo 5.4 para el vector aleatorio (X, Y ), tenemos que 0 si x < 10 0 si y < 5 x + 1 y +1 si 10 x < 0 si 5 y <0 fX (x) = 100x 10 1 y fY (y ) = 25 y 5 1 + si 0 x < 10 si 0 y < 5 + 100 10 25 5 0 si x 10 0 si y 5.
En el gr aco de la izquierda de la Figura 5.4 mostramos la funci on de densidad de la variable aleatoria X y en el gr aco de la derecha la funci on de densidad de la variable aleatoria Y . Compar andolas, deducimos que ambas variables son sim etricas, tienen la misma media y mediana y la dispersi on de X es mayor que la de Y . Este hecho se maniesta en que la magnitud de la varianza y la meda de la variable aleatoria Y es menor que la varianza y la meda de la variable aleatoria X , respectivamente. Esto puede obedecer a las caracter sticas de precisi on de un distanci ometro digital frente a uno anal ogico.
En resumen, la funci on de probabilidad o de densidad conjunta de un vector aleatorio (X, Y ) no s olo determina la distribuci on conjunta de las dos variables, sino que tambi en describe el comportamiento probabil stico de las variables aleatorias a trav es de las distribuciones marginales.
5.3.
A partir de la funci on de probabilidad o de densidad conjunta del vector aleatorio (X, Y ) podemos determinar si las variables aleatorias X e Y son independientes o por el contrario est an relacionadas, en el sentido de que el valor
121
Manuales Uex
0.15
0.10
f(x)
0.15
0.20
0.25
0 y
10
Figura 5.4: La funci on de densidad de la variable aleatoria X (gr aco de la izquierda) y de la variable aleatoria Y (gr aco de la derecha) descritas en el Ejemplo 5.2. de una variable condiciona el comportamiento de la otra. Decimos que dos variables aleatorias discretas X e Y son independientes, cuando p(x, y ) = pX (x)pY (y ), para todo x, y R. Observemos que si las variables aleatorias X e Y son independientes, entonces el comportamiento de una variable no condiciona el comportamiento de la otra, pues P (X = x|Y = y ) = P (X = x, Y = y ) = P (X = x). P (Y = y )
Asimismo, la condici on de independencia para dos variables aleatorias continuas es f (x, y ) = fX (x)fY (y ). Ejemplo 5.7 Teniendo en cuenta la funci on de densidad conjunta denida en el Ejemplo 5.4 y las funciones de densidades marginales calculadas en el Ejemplo 5.6, deducimos que las variables aleatorias continuas X e Y descritas en el Ejemplo 5.2 son independientes. As , la magnitud de la medici on utilizando un tipo de distanci ometro no condiciona la magnitud de la medici on del otro tipo de distanci ometro.
Manuales Uex
Por contra, las variables aleatorias discretas X e Y consideradas en Ejemplo 5.1 no son independientes, pues, 1 1 = P (X = 0, Y = 2) = P (X = 0)P (Y = 2) = . 10 100
122
5.4.
Medidas de asociaci on
En general, aunque variables aleatorias sean dependientes, el valor de una variable no tiene porqu e determinar de manera un voca el valor de la otra, aunque s condiciona su comportamiento. Para medir el grado de dependencia entre ambas variables introducimos medidas de asociaci on. La denici on e interpretaci on de estas medidas es an aloga a la de las medidas de asociaci on muestrales expuestas en el Tema 2 para analizar descriptivamente dos caracteres cuantitativos, referidas ahora a los valores que toma las variables aleatorias. En caso de confusi on, llamamos a estas medidas de asociaci on poblacionales para distinguirlas de la muestrales, que hacen referencia a un conjunto de datos. A continuaci on denimos la covarianza y el coeciente de correlaci on de un vector aleatorio (X, Y ). La covarianza del vector aleatorio (X, Y ), la denotamos por XY y la denimos como el valor esperado del producto de las diferencias entre las variables y sus medias. Seg un sean las dos variables discretas o continuas obtenemos las siguientes expresiones para el c alculo de la covarianza, XY = o XY =
x,y S
(x X )(y Y )p(x, y )
donde X y Y denotan las medias de X e Y , respectivamente. La covarianza mide el grado de asociaci on lineal entre las variables aleatorias X e Y . Las unidades en las que se expresa es el producto de las unidades en las que se expresan las variables aleatorias. Observemos que el orden en las coordenadas no inuye en el valor de la covarianza. Un valor positivo de la covarianza indica que la asociaci on es de tipo lineal directa, es decir, a medida que los valores de una variable aumentan los valores asociados a la otra variable aumentan de forma lineal. Por el contrario, un valor negativo indica que la asociaci on es de tipo inversa, es decir, a medida que los valores de una variable aumentan
123
Manuales Uex
124
Manuales Uex
Como la covarianza mide el grado de dependencia en t erminos absolutos, su magnitud depende de la escala de medida utilizada. Para evitar este inconveniente, introducimos el coeciente de correlaci on del vector aleatorio (X, Y ). Lo denotamos por XY y la denimos como XY = XY , X Y
siendo X y Y las desviaciones t picas de las variables aleatorias X e Y , respectivamente. El coeciente de correlaci on es una medida adimensional, acotado entre -1 y 1, d onde su signo es el de la covarianza. Con respecto a su magnitud, decimos que cuanto m as pr oximo est ea1 o a -1, la asociaci on entre ambas variables mayor se ajusta a una relaci on lineal directa o inversa, respecnulo, entonces tambi en lo es la covarianza y por tanto nos indica ausencia de dependencia lineal entre las variables aleatorias X e Y . Ejemplo 5.9 Para las variables aleatorias discretas consideradas en el Ejem2 2 plo 5.1, tenemos que X = Y = 9/25, pues Y = 2 X , y XY = 9/25.
relaci on lineal inversa exacta entre X e Y . Finalmente, como las variables aleatorias consideradas en el Ejemplo 5.2 son independientes, tenemos que el coeciente de correlaci on es nulo. De la propia denici on del coeciente de correlaci on, obtenemos que XX = 1, pues una variable est a determinada con ella misma, y XY = Y X , es decir, no importa el orden en la relaci on. Adem as, como el coeciente de correlaci on es una medida relativa, su magnitud no est a afectada por transformaciones lineales de las variables aleatorias. Observemos que el coeciente de correlaci on s olo nos informa de la existencia de relaci on lineal.
Con todo ello, deducimos que XY = 1, que nos indica la existencia de una
125
Manuales Uex
5.5.
En muchas situaciones pr acticas no es posible determinar de manera directa el comportamiento de un vector aleatorio (Z, W ) de inter es para nuestro estudio. En cambio podemos conocer el comportamiento de otro vector aleatorio (X, Y ) que determina al vector (Z, W ) de manera indirecta aplicando cierta transformaci on, (Z, W ) = g (X, Y ). Ejemplos de esta situaci on son la descripci on del comportamiento probabil stico de la medici on de un angulo horizontal como diferencia o suma de mediciones de dos angulos horizontales, la descripci on del area de un rect angulo a partir de las mediciones de la base y la altura o la descripci on de la altura y la distancia horizontal entre dos puntos, conocidas la medici on del angulo de inclinaci on y la medici on de la distancia entre ellos. Conocida la funci on de probabilidad o de densidad conjunta del vector aleatorio (X, Y ), es posible obtener en determinadas situaciones, mediante un cambio de variables, la funci on de probabilidad o de densidad conjunta del vector aleatorio (Z, W ). Sin embargo, en la mayor a de las situaciones pr acticas, s olo estamos interesados en determinar medidas caracter sticas del vector aleatorio (Z, W ), m as que en la propia funci on de probabilidad o de densidad conjunta. Estas medidas caracter sticas pueden ser aproximadas realizando c alculos sencillos a partir de las medidas caracter sticas del vector (X, Y ). Este procedimiento es el aplicado habitualmente en las pr acticas de campo, a pesar de obtener s olo una aproximaci on de las medidas caracter sticas. A continuaci on, aproximamos las medias y la matriz de varianzas-covarianzas del vector aleatorio (Z, W ), a partir de la medidas caracter sticas del vector aleatorio (X, Y ). En primer lugar suponemos que Z = a1 X + b1 Y + c1 y ente ambos vectores aleatorios es de tipo lineal. Para facilitar los c alculos, esta relaci on la expresamos matricialmente como Z W = a1 a2 b1 b2 c1 c2 X Y . 1 (5.1) on W = a2 X + b2 Y + c2 , con ai , bi , ci R para i {1, 2}, es decir, la relaci
126
Manuales Uex
Z W
a1 a2
a1 a2 c1 c2
b1 b2
c1 c2
ZW 2 W
b1 b2
2 X XY 0
X Y , 1 XY 2 Y 0
(5.2) a2 b2 . c2 (5.3)
a1 0 0 b1 c1 0
respectivamente. Observemos que en esta situaci on determinamos las medidas caracter sticas de manera exacta y que estas expresiones son la generalizaci on de las medidas caracter sticas de una variable aleatoria transformada linealmente. Ejemplo 5.10 Supongamos que estamos interesados en medir con un teodolito un angulo horizontal , como diferencia de la medici on de dos angulos y , tal y como mostramos en el gr aco izquierdo de la Figura 5.5. Si las mediciones de los angulos , y quedan descrita por las variables aleatorias aleatoria Z es una combinaci on lineal de las variables X e Y del tipo dado en y la varianza de la variable aleatoria Z son 2 X X 2 Z = 1 1 y Z = 1 1 Y XY (5.1), tomando a1 = 1, b1 = 1 y c1 = 0. Con todo ello, tenemos que la media XY 2 Y 1 1 Z , X e Y , respectivamente, deducimos que Z = X Y . Por tanto, la variable
2 2 2 = X + Y 2XY . Z = X Y y Z
Observemos que si las variables aleatorias X e Y son independientes, entonces pendencia se verica cuando al medir el a ngulo no utilizamos la referencia utilizada para medir el a ngulo , tal y como mostramos en el gr aco central de la Figura 5.5. En cambio si la covarianza es positiva, la varianza de Z es menor que la suma de las varianzas de las variables X e Y . Esta situaci on
127
Manuales Uex
X Y
X Y
Figura 5.5: Distribuci on de los angulos considerados en la situaci on descrita en el Ejemplo 5.10. de dependencia directa entre las variables aleatorias X e Y se verica cuando al medir el angulo utilizamos la misma referencia que para medir el angulo , tal y como mostramos en el gr aco izquierdo de la Figura 5.5. Por ello, al medir el angulo es conveniente utilizar este u ltimo procedimiento, pues obtenemos menor variabilidad en el comportamiento probabil stico de la medici on del angulo . En cambio, si la relaci on entre ambos vectores aleatorios no es de tipo lineal, aproximamos dicha relaci on, siempre que sea posible, por una ecuaci on tipo lineal proporcionada por el desarrollo de Taylor hasta el primer orden. M as concretamente, si Z = g1 (X, Y ) y W = g2 (X, Y ), entonces g1 g1 Z g1 (X , Y ) + (X X ) + (Y Y ), x (X ,Y ) y (X ,Y ) g2 g2 W g2 (X , Y ) + (X X ) + (Y Y ), (5.4) x (X ,Y ) y (X ,Y ) siendo
gi t
ximaci on es la generalizaci on dada en el tema anterior para la transformaci on no lineal de una variable aleatoria. Observemos que si la relaci on entre los vec-
(X ,Y )
tores aleatorios (X, Y ) y (Z, W ) es lineal, entonces la aproximaci on anterior es exacta. Ejemplo 5.11 Para la variable aleatoria Z descrita en el Ejemplo 5.10, tenemos que Z es una transformaci on lineal de las variables aleatorias X e Y .
(X ,Y )
(X ,Y )
para i {1, 2}. A partir de (5.2) y (5.3) obtenemos aproximaciones a las medias y a la matriz de varianzas-covarianzas, respectivamente, del vector (Z, W ) en funci on de las medidas caracter sticas del vector aleatorio (X, Y ). Ejemplo 5.12 Supongamos que estamos interesados en determinar el area de un rect angulo a partir de las mediciones de su base y altura. Si el comportamiento de las mediciones del area, la base y la altura del rect angulo es descrito por las variables aleatorias Z , X e Y , respectivamente, deducimos que Z = XY , que no es una transformaci on lineal. Aplicando la aproximaci on dada en (5.4), tenemos que Z X Y + Y (X X ) + X (Y Y ), caracter sticas de X e Y , mediante las expresiones
2 2 2 2 2 Z X Y y Z Y X + X Y + 2X Y XY .
129
Manuales Uex
Figura 5.6: Croquis de la situaci on descrita en el Ejemplo 5.13. Ejemplo 5.13 Supongamos que estamos interesados en determinar la altura y la distancia horizontal existente entre dos puntos A y B , a partir de la medici on de la distancia y del angulo de inclinaci on entre ambos puntos, tal y como mostramos en la Figura 5.6. Si el comportamiento probabil stico de las mediciones de la altura, la distancia horizontal, el a ngulo de inclinaci on y la distancia est an modeladas por las variables aleatorias Z , W , X e Y , respectivamente, deducimos que Z = X sen Y y W = X cos Y, que no es una transformaci on lineal. Aplicando la aproximaci on dada en (5.4), tenemos que Z W X sen Y + (X X ) sen Y + X (Y Y ) cos Y , X cos Y + (X X ) cos Y X (Y Y ) sen Y ,
y por tanto, las siguientes aproximaciones de las medidas caracter sticas del vector aleatorio (Z, W ) a partir de las del vector (X, Y )
2 2 2 2 Z X sen Y y Z X sen2 Y + 2 X Y cos Y + 2X XY cos Y sen Y , 2 2 2 2 W X cos Y y W X cos2 Y + 2 X Y sen Y 2X XY cos Y sen Y ,
Notemos que puede ocurrir que XY sea nulo y ZW no lo sea, pues la transformaci on puede denir cierta relaci on entre las variables aleatorias Z y W . Este hecho lo ilustramos en la Figura 5.7 donde mostramos el diagrama de dispersi on para un conjunto de datos extra do del experimento aleatorio asociado
1.2
1.1
1.0
0.9
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.2
2.4 z
2.6
2.8
Figura 5.7: Diagramas de dispersi on para dos conjuntos de datos correspondiente al vector (X, Y ) (gr aco de la izquierda) y al vector (Z, W ) (gr aco de la derecha), respectivamente, del Ejemplo 5.13. al vector (X, Y ) (gr aco de la izquierda) y el diagrama de dispersi on para un conjunto de datos extra do del experimento aleatorio asociado al vector (Z, W ) (gr aco de la derecha) La determinaci on o aproximaci on de la variabilidad de observaciones indirectas es de gran inter es pr actico a la hora de determinar la caracter stica de precisi on del aparato de medida que vamos a utilizar en las observaciones directas, con el n de garantizar que la variabilidad de las medidas indirectas nales sea menor que cierto valor de tolerancia. Si para la situaci on descrita en el Ejemplo 5.10, suponemos que la variabilidad en las mediciones de ambos a ngulos es la misma, suposici on l ogica si utilizamos el mismo teodolito para la medici on de ambos angulos, y que ambas mediciones son independientes, deducimos que la precisi on del teodolito tiene que ser la mitad de la tolerancia deseada para la medici on nal del a ngulo de inter es.
5.6.
tencias:
Pr acticas de laboratorio
(x/100+1/10)*(y/25+1/5)*(-10<=x)*(x<0)*(-5<=y)*(y<0)+
131
Manuales Uex
(x/100+1/10)*(-y/25+1/5)*(-10<=x)*(x<0)*(0<=y)*(y<5)+ (-x/100+1/10)*(y/25+1/5)*(0<=x)*(x<10)*(-5<=y)*(y<0)+ (-x/100+1/10)*(-y/25+1/5)*(0<=x)*(x<10)*(0<=y)*(y<5)} x<-seq(-11,11,0.5); y<-seq(-6,6,0.5); z<-outer(x,y,f) persp(x,y,z, theta = 30, phi = 30) Generar 1000 valores del vector aleatorio x1<-runif(1000,-5,5); x2<-runif(1000,-5,5) y1<-runif(1000,-2.5,2.5); y2<-runif(1000,-2.5,2.5) cbind(x<-x1+x2,y<-y1+y2) Representar el diagrama de dispersi on de los vectores generados plot(x,y,xlim=c(-10,10),ylim=c(-5,5)) Para mostrar las aproximaciones de las medidas caracter sticas para la situaci on descrita en el Ejemplo 5.12, utilizamos las sentencias: Generar 10000 valores de un vector aleatorio library(MASS); xy<-mvrnorm(10000,c(5,6),cbind(c(1,.5),c(.5,1))) x<-xy[,1];y<-xy[,2]; z<-x*y Representar las observaciones directas y las indirectas plot(x,y); hist(z) Calcular las medidas caracter sticas de las medias indirectas y sus aproximaciones mean(z); mean(x)*mean(y); var(z) mean(y)^2*var(x)+mean(x)^2*var(y)+2*mean(x)*mean(y)*cov(x,y)
132
Manuales Uex
5.7.
Cuestiones y problemas
Manuales Uex 133
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) Si dos variables aleatorias son independientes entonces son incorreladas. ii) Las funciones de densidad de las variables aleatorias continuas que constituyen un vector aleatorio determinan la funci on de densidad conjunta.
f(x,y)
Figura 5.8: Funciones de densidad conjuntas para el vector aleatorio considerado en el Problema 2. iii) Si dos variables aleatorias discretas son independientes, entonces las funciones de probabilidad de dichas variables aleatorias determinan la funci on de probabilidad conjunta. iv) La varianza de la suma de dos variables aleatorias es la suma de las varianzas de dichas variables aleatorias. v) La varianza de la suma de dos variables aleatorias es mayor o igual que la suma de las varianzas de dichas variables aleatorias. vi) La covarianza del vector (X, Y ) coincide con la del vector (X + a, Y + b), para cualesquiera valores a, b R. 2. Discutir razonadamente cu al de las funciones de densidad conjuntas mostradas en la Figura 5.8 est a asociada a un vector aleatorio continuo tal que el coeciente de correlaci on entre sus variables sea negativo. 3. Supongamos que de las 5 estaciones totales existentes en el Centro Universitario de M erida, 2 est an mal calibradas. Adem as, supongamos que las pr acticas de cierta asignatura se dividen en dos sesiones pr acticas y que al
f(x,y)
Manuales Uex
nalizar cada sesi on pr actica cada alumno entrega la estaci on total asignada. Denotamos por Xi el n umero de estaciones totales bien calibradas asignadas a un estudiante para la sesi on pr actica i- esima. i) Calcular la funci on de probabilidad del vector aleatorio (X1 , X2 ).
134
135
Manuales Uex
Figura 5.9: Posici on de los puntos considerado en la situaci on descrita en el Problema 5 (gr aco de la izquierda) y en el Problema 6 (gr aco de la derecha). para tomar las mediciones en las que la covarianza de las variables sea nula, negativa y positiva, respectivamente. Cu al es la mejor situaci on en el sentido de minimizar la varianza de la variable asociada a las mediciones de la distancia entre los puntos AC ? 6. Conocida la media y la varianza de las variables aleatorias que describen el comportamiento probabil stico de las mediciones entre los puntos AC , BC , AD y DE distribuidos tal y como mostramos en el gr aco de la derecha de la Figura 5.9 y supuesto que las variables son incorreladas, calcular la media y la varianza de la variable aleatoria que describe el comportamiento probabil stico de las mediciones del area del rect angulo de v ertices ABE . 7. Utilizando el software estad stico R y un conjunto de datos generados asociado al experimento aleatorio descrito en el problema anterior, comparar las medidas caracter sticas asociadas al area del rect angulo y las aproximaciones obtenidas a partir de las medidas caracter sticas de las medidas directas.
136
Manuales Uex
Como hemos comentado en los temas anteriores, el comportamiento probabil stico de una variable o vector aleatorio queda determinado una vez conocida su funci on de probabilidad para el caso discreto, o su funci on de densidad para el caso continuo. En la pr actica no siempre es evidente la distribuci on de probabilidad o modelo probabil stico que subyace a un experimento aleatorio y ha de ser el experimentador el que ajuste una funci on de probabilidad o de densidad a las variables de inter es. La elecci on de estas funciones debe estar motivada por la compresi on de la naturaleza del experimento, y la validez de la elecci on debe ser vericada a trav es de la evidencia emp rica. Por tanto, a la hora de elegir, el experimentador debe conocer en profundidad los modelos probabil sticos susceptibles de ser utilizados. En este tema, para variables como para vectores aleatorios, frecuentemente utilizados en el campo de la Topograf a. Para cada uno de estos modelos ofrecemos una discusi on sobre las condiciones que debe vericar el experimento para su aplicaci on, deduciendo la expresi on matem atica del modelo en base a estas condiciones.
137
Manuales Uex
6.2.
Como hemos indicado anteriormente, en primer lugar exponemos modelos de probabilidad asociados a variables aleatorias discretas. A pesar de existir un gran abanico de modelos que describen una extensa variedad de situaciones pr acticas, a continuaci on, s olo nos centraremos en el modelo uniforme y el modelo binomial, por aparecer con mayor frecuencia en el campo de la Topograf a.
6.2.1.
Para una variable aleatoria discreta cuyo espacio muestral tiene cardinal nito con todos sus elementos equiprobables, una distribuci on de probabilidad adecuada es la uniforme discreta. Ejemplo 6.1 Consideramos el experimento aleatorio descrito en el Ejemplo 3.1, donde elegimos al azar una estaci on total de entre las cinco existentes en el almac en del Centro Universitario de M erida. Si enumeramos las estaciones totales del uno al cinco y denimos la variable aleatoria X , ndice de la estaci on total seleccionada, tenemos que el espacio muestral de la variable aleatoria es {1, 2, 3, 4, 5}, de cardinal nito. Adem as, como los sucesos elementales son considerados equiprobables y cada valor de la variable est a asociado a un u nico
Manuales Uex
suceso elemental, la funci on de probabilidad admite la expresi on P (X = 1) = 0.2, P (X = 2) = 0.2, P (X = 3) = 0.2, P (X = 4) = 0.2, P (X = 5) = 0.2.
138
F(x)
0.15
0.6
0.20
0.8
0.25
1.0
3 x
Figura 6.1: Funci on de distribuci on (gr aco de la izquierda) y funci on de probabilidad (gr aco de la derecha) para la variable aleatoria X considerada en el Ejemplo 6.1. En el gr aco de la izquierda de la Figura 6.1, mostramos la funci on de distribuci on de la variable aleatoria X y en el gr aco de la derecha su funci on de probabilidad. Observamos que la probabilidad de seleccionar una estaci on total concreta es independiente de la enumeraci on, hecho que se maniesta en la uniformidad de la funci on de probabilidad y en la altura de los escalones de la funci on de distribuci on. As , un modelo uniforme es apropiado para caracterizar el comportamiento aleatorio de esta variable. En general, diremos que una variable aleatoria discreta X sigue una distribude probabilidad admite la expresi on ci on uniforme si su espacio muestral es nito, sea {x1 , . . . , xn }, y la funci on P (X = xi ) = 1 , i {1, . . . , n}. n
De su propia denici on, deducimos que para determinar un modelo uniforme s olo es necesario especicar el espacio muestral de la variable aleatoria. Gr acamente, un distribuci on uniforme est a caracterizada por tener una funci on de probabilidad uniforme en los valores del espacio muestral y escalones de la misma altura en su funci on de distribuci on, tal y como mostramos en la Figura 6.1. A partir de la funci on de probabilidad obtenemos que = 1 1 xi y 2 = (xi )2 . n i=1 n i=1
n n
139
Manuales Uex
6.2.2.
No todas las variables aleatorias discretas asociadas a un experimento aleatorio con sucesos elementales equiprobables se caracterizan mediante una distribuci on uniforme. Ejemplo 6.3 Supongamos que en la situaci on descrita en el Ejemplo 6.1, las estaciones totales ET 1 y ET 2 est an mal calibradas. Si el valor cero es asociado a los sucesos elementales donde la estaci on total est a mal calibrada y el uno a los sucesos elementales donde la estaci on total est a bien calibrada, tenemos que la funci on de probabilidad asociada a la variable aleatoria X que describe esta situaci on admite la expresi on P (X = 0) = 0.4 y P (X = 1) = 0.6. En el gr aco de la izquierda de la Figura 6.2 mostramos la funci on de distribuci on de la variable aleatoria X y en el gr aco de la derecha su funci on de
probabilidad. Observamos que la variable aleatoria X no se ajusta a un modelo uniforme, dado que las probabilidades asociadas a los valores muestrales son distintas, a pesar de que los sucesos elementales del experimento aleatorio son equiprobables.
1.0
0.8
F(x)
0.6
p(x) 0.4 0.2 0.0 1.0 0.5 0.0 0.5 x 1.0 1.5 2.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
1.0
0.5
0.0
0.5 x
1.0
1.5
2.0
Figura 6.2: Funci on de distribuci on (gr aco de la izquierda) y funci on de densidad (gr aco de la derecha) para la variable aleatoria X considerada en el Ejemplo 6.3. A continuaci on, introducimos un modelo de probabilidad apropiado para una variable aleatoria X con espacio muestral {0, 1, . . . , n} y cuyos valores no todos son equiprobables. Comenzaremos con el caso n = 1. Decimos que una variable aleatoria X sigue un modelo de distribuci on de Bernoulli de par ametro p si su espacio muestral es {0, 1} y la funci on de probabilidad admite la expresi on P (X = 0) = 1 p, En esta situaci on, obtenemos que = p y 2 = p(1 p). Adem as, la mediana de una distribuci on de Bernoulli es cero si p < 0.5, uno si p > 0.5 y cualquier valor entre 0 y 1 si p = 0.5. Ejemplo 6.4 Para la variable aleatoria X descrita en el Ejemplo 6.3, deducimos que sigue un modelo de Bernoulli de par ametro p = 0.6. Adem as, on es obtenemos que = 0.6, 2 = 0.24, la mediana es uno y la distribuci asim etrica a la izquierda, tal y como, mostramos en el gr aco de la derecha de la Figura 6.2. El par ametro p de un modelo de Bernoulli puede representar la probabilidad de cierto suceso del experimento aleatorio. Este suceso es codicado por la variable como 1 y a su complementario por el valor 0. Teniendo en cuenta este esquema, en el siguiente ejemplo consideramos una generalizaci on de la distribuci on de Bernoulli. P (X = 1) = p.
141
Manuales Uex
Manuales Uex
= 2 0.6 = 1.2 y 2 = 2 0.4 0.6 = 0.48. Asimismo, obtenemos que la mediana es 1 y la distribuci on de la variable presenta una asimetr a a la izquierda.
142
1.0
0.8
0.6
F(x)
0.4
0.0
0.1
0.2
0.3
0.4
0.5
1 x
Figura 6.3: Funci on de distribuci on (gr aco de la izquierda) y funci on de probabilidad (gr aco de la derecha) para la variable aleatoria X considerada en el Ejemplo 6.5. En general, el n umero de veces que en n repeticiones independientes de un experimento aleatorio obtenemos un cierto suceso que tiene probabilidad asociada p, es una variable aleatoria con espacio muestral {0, 1, . . . , n} y funci on de probabilidad P (X = x) = n(n 1) (n x + 1) x p (1 p)nx , x {0, 1, . . . , n}, x(x 1) 1
Denominamos a dicha variable modelo o distribuci on binomial de par ametros n y p y la denotamos por B (n, p). La expresi on de la funci on de probabilidad la deducimos teniendo en cuenta que las repeticiones del experimento son independientes, que la probabilidad del suceso es p y el n umero de combinaciones sin repetici on de n elementos tomados de x en x (ver Ap endice B), pues determinar una realizaci on de las n repeticiones del experimento consiste en proporcionar x posiciones donde se ha observado el suceso. Ejemplo 6.6 La variable aleatoria X descrita en el Ejemplo 6.5 contabiliza el n umero de estaciones totales bien calibradas en las dos sesiones pr acticas. Si consideramos el suceso, elegir una estaci on total bien calibrada en una sesi on, tenemos que la variable aleatoria X sigue una distribuci on binomial de estaci on total bien calibrada es de 0.6. Observemos que esta probabilidad es invariante a lo largo de las repeticiones del experimento. Si el experimento s olo se repite una vez, como en la situaci on descrita en el Ejemplo 6.3, entonces obtenemos la distribuci on de Bernoulli. Asimismo, un modelo binomial B (2, p)
143
Manuales Uex
0.5
0.5
0.4
0.4
0.3
0.3
p(x)
p(x)
0.2
0.2
0.0
0.1
2 x
0.3
0.4
0.5
6 x
10
12
Figura 6.4: Funci on de probabilidad de un modelo binomial con p = 0.25 y n = 4 (gr aco de la izquierda), n = 8 (gr aco central) y n = 12 (gr aco de la derecha). lo podemos interpretar como suma de 2 modelos de Bernoulli de par ametro p.
Para determinar un modelo binomial hemos de jar los par ametros n y p. La media y la varianza de este modelo dependen de estos par ametros seg un indican las siguientes expresiones = np y 2 = np(1 p). As , jados los valores de la media y la varianza de una variable aleatoria que sigue un modelo binomial, podemos determinar los valores de los par ametros n y p. La distribuci on de la variable presenta una asimetr a a la derecha (izquierda) si p < 0.5 (p > 0.5), siendo m as ligera cuanto mayor sea n, tal y como mostramos en la Figura 6.4. En cambio, si p = 0.5, entonces la distribuci on es sim etrica, coincidiendo la mediana con la media si n es par. En la Figura 6.5 ponemos de maniesto estos hechos, representando la funci on de probabilidad de un modelo binomial con n = 6 para distintos valores de p, concretamente para p = 0.25 (gr aco de la izquierda), p = 0.5 (gr aco central) y p = 0.75 (gr aco de la derecha).
Observemos que si p > 0.5 (p < 0.5), los valores m as probables de la variable son los valores de mayor (menor) magnitud, pues en promedio m as (menos) de la mitad de las repeticiones ser an favorables a la observaci on del suceso de inter es. El c alculo de las probabilidades de un modelo binomial puede ser
0.4
0.4
0.3
0.3
p(x)
p(x)
p(x) 0 1 2 3 x 4 5 6
0.2
0.2
0.1
0.1
0.0
0.0
3 x
0.0
0.1
0.2
0.3
0.4
3 x
Figura 6.5: Funci on de probabilidad de un modelo binomial con n = 6 y p = 0.25 (gr aco de la izquierda), p = 0.5 (gr aco central) y p = 0.75 (gr aco de la derecha). tedioso e inc omodo. Por ello, en cualquier software estad stico est an implementados los c alculos. En cualquier caso, en el Cuadro A.1 proporcionamos la funci on de distribuci on de algunos modelos binomiales para los valores de n y p m as usuales. As , si X es una variable aleatoria que sigue un modelo binomial B (6, 0.25), obtenemos que P (X = 1) = P (X 1) P (X = 0) = 0.534 0.178 = 0.356. Observemos que si Y es una variable aleatoria binomial B (6, 0.75), entonces el Cuadro A.1 no nos permite calcular de manera directa su funci on de probabilidad. Sin embargo, por simetr a tenemos que P (Y = 5) = P (X = 1), pues si en las 6 repeticiones del experimento se ha observado una vez el suceso de inter es que tiene probabilidad 0.25, entonces su suceso complementario tiene probabilidad 0.75 y se ha observado 5 veces en las 6 repeticiones. Este hecho lo mostramos en la Figura 6.5. En general, si X e Y siguen modelos binomiales, Por otro lado, si X e Y siguen modelos binomiales independientes, B (n1 , p) y B (n2 , p), respectivamente, donde ahora el par ametro jo es p, entonces la variable X + Y es un modelo binomial B (n1 + n2 , p), pues es la suma de n1 + n2 B (n, p) y B (n, 1 p), respectivamente, entonces P (X = x) = P (Y = n x).
Ejemplo 6.7 Supongamos que la variable aleatoria X descrita en el Ejemplo 6.5 modeliza el n umero de estaciones totales bien calibradas seleccionadas en el primer cuatrimestre. Si denotamos por Y el n umero de estaciones totales
145
Manuales Uex
el Centro Universitario de M erida est an mal calibradas. En esta situaci on, la variable aleatoria X no est a modelada por una distribuci on binomial, a pesar de ser una repetici on en la selecci on de una estaci on total, pues la probabilidad de que el segundo grupo seleccione una estaci on bien calibrada depende del estado de la estaci on total seleccionada por el grupo uno. En este caso, antes
147
Manuales Uex
0.20
0.15
0.10
0.05
0.00
10
15 x
20
25
30
0.00 0
0.05
0.10
p(x)
p(x)
0.15
0.20
10
20
30 x
40
50
60
Figura 6.6: Funci on de probabilidad de un modelo geom etrico con p = 0.2 (gr aco de la izquierda) y p = 0.1 (gr aco de la derecha).
6.3.
A continuaci on exponemos distribuciones de probabilidad asociadas a variables aleatorias continuas. A pesar de existir un gran abanico de modelos que describen una extensa variedad de situaciones pr acticas, nos centramos en el modelo uniforme y en el modelo normal, as como los modelos asociados a la distribuci on normal, por ser las que aparecen con mayor frecuencia en campo de la Topograf a.
6.3.1.
Al igual que en el caso discreto, un modelo de inter es es la distribuci on uniforme. Se caracteriza por asignar la misma probabilidad a intervalos incluidos en el espacio muestral que tengan la misma amplitud. Es apropiado cuando la amplitud del espacio muestral es nito y no observamos de antemano zonas m as probables que otras. Ejemplo 6.10 Supongamos que la variable aleatoria X considerada en el Ejemplo 4.2, que modeliza el error en mil metros cometido con un distanci ometro con apreciaci on en mil metros al medir una distancia calibrada de valor nominal 0 , admite la funci on de distribuci on y de densidad dada por las expresiones 0, F (x) = x+10 20 1, si x < 10 0, si 10 x < 10 y f (x) = 1 20 , si x 10
Manuales Uex
148
0.8
0.6
0.4
0.2
15
10
0 x
10
15
0.00 15
0.0
0.01
0.02
0.03
F(x)
f(x)
0.04
0.05
0.06
1.0
10
0 x
10
15
Figura 6.7: Funci on de distribuci on (gr aco de la izquierda) y funci on de densidad (gr aco de la derecha) para la variable aleatoria X considerada en el Ejemplo 6.10. respectivamente. En el gr aco de la izquierda de la Figura 6.7 mostramos la funci on de distribuci on la variable aleatoria X y en el gr aco de la derecha su funci on de densidad. En esta situaci on, obtenemos que el error est a acotado amplitud contenidos en el espacio muestral tiene la misma probabilidad. Por ejemplo, tenemos que P (10 X 5) = P (5 X 0) = P (0 X 5) = P (5 X 10), pues la funci on de densidad es contante sobre el espacio muestral. Observemos que al cambiar la funci on de densidad de la variable X a la considerada en el Ejemplo 4.2, las probabilidades tienen comportamiento distinto. En general, decimos que una variable aleatoria continua X sigue un modelo o distribuci on uniforme en el intervalo denido por los valores a y b, con la expresi on a, b R y a < b, y lo denotamos por U (a, b), si su funci on de densidad admite f (x) = 0, si x < a o x > b si a x b. en el intervalo denido por los valores 10 y 10, y que dos intervalos con igual
valores extremos del espacio muestral. Asimismo, la media y la varianza dependen de a y b como sigue = b+a (b a)2 y 2 = . 2 12
149
Manuales Uex
1 ba ,
6.3.2.
Distribuci on normal
Una de las caracter sticas de la distribuci on uniforme es que el rango de valores que toma la variable est a acotado. Sin embargo, el conjunto de posibles valores de un car acter en un experimento aleatorio puede no estar determinado expl citamente y por tanto el espacio muestral de la variable aleatoria que represente dicho car acter debe ser no acotado, aunque la probabilidad de que la variable tome valores en un intervalo de gran amplitud sea pr oxima a uno. Ejemplo 6.12 Supongamos que la distribuci on de probabilidad de la variable aleatoria X considerada en el Ejemplo 6.10 admite la representaci on dada en la Figura 6.8, donde mostramos su funci on de distribuci on (gr aco de la izquierda) y su funci on de densidad (gr aco de la derecha). Observemos que el espacio muestral no est a acotado, aunque se concentra en su mayor a en el intervalo denido por los valores -3 y 3. Adem as, su comportamiento probabil stico es sim etrico con respecto al cero, siendo este el valor de la media y mediana. Asimismo, los valores concentrados alrededor del cero son m as probables que aquellos que se encuentran m as alejados. Un modelo de probabilidad con estas caracter sticas y que es apropiado para representar el comportamiento aleatorio de m ultiples variables f sicas donde interviene un proceso de medici on, es el modelo normal. Diremos que una variable aleatoria X sigue un modelo o distribuci on normal est andar si su funci on de densidad admite la expresi on
Manuales Uex
x2 1 f (x) = e 2 , x R. 2
150
En el gr aco de la izquierda de la Figura 6.8 mostramos su funci on de distribuci on y en el gr aco de la derecha su funci on de densidad, donde observamos su forma acampanada. De sus propiedades deducimos que la media y la mediana
0.8
1.0
F(x)
0.6
0.0 3
0.1
0.2
0.3
0.4
0 x
Figura 6.8: Funci on de distribuci on (gr aco de la izquierda) y funci on de densidad (gr aco de la derecha) para la variable aleatoria X considerada en el Ejemplo 6.12.
0.4
0.3
f(x)
f(x)
0.2
0.1
0.0
0 x
0.0
F(x)
0.1
0.2
0.3
0.4
F(x)
3 2 1 0 x 1
1F(x)
2 3
Figura 6.9: C alculo de la funci on de distribuci on de la normal est andar para valores negativos teniendo en cuenta su simetr a. del modelo normal est andar son nulos, el valor de su varianza es la unidad y es una distribuci on sim etrica, con valores m as probables cuanto m as cercanos a cero, d onde alcanza el m aximo la funci on de densidad. El c alculo de la funci on de distribuci on del modelo normal est andar est a implementado en cualquier software estad stico. En cualquier caso en el Cuadro A.2 mostramos una tabulaci on de dichos valores. A continuaci on, indicamos como calcular, a partir de dicha tabla, las siguientes probabilidades P (X 2) = 0.977 y P (X 2) = 1 P (X 2) = 0.023. Observemos que la tabulaci on anterior no nos permite calcular de manera directa la funci on de distribuci on para valores negativos. Sin embargo, por mostramos en la Figura 6.9. Es decir, a la izquierda del punto x queda bajo la simetr a del modelo normal, tenemos que F (x) = 1 F (x), tal y como
151
Manuales Uex
0.4
0.4
0.3
0.3
f(x)
f(x)
f(x)
0.2
0.2
0.683
0.954
0.2
0.3
0.4
0.997
0.1
0.1
0.0
0.0
0 x
0 x
0.0 3
0.1
0 x
Figura 6.10: Comportamiento de la probabilidad el modelo normal est andar. la curva el mismo area que a la derecha de x. Teniendo esto en cuenta, se verica que P (X 2) = 1 P (X 2) = P (X 2) = 0.023. Siguiendo un procedimiento an alogo, P (1 X 1) = 0.683, P (2 X 2) = 0.954, P (3 X 3) = 0.997. En la Figura 6.10 mostramos el comportamiento de estas probabilidades, observando un aumento en la probabilidad al ampliar la amplitud del intervalo. En el intervalo denido por los valores -2 y 2 se concentra m as del 95 % de la distribuci on de probabilidad. Fijados los extremos del intervalo, hemos calculado la probabilidad de que el modelo normal tome un valor dentro de dicho intervalo. En ocasiones, estamos interesados en determinar un intervalo centrado en el cero, tal que con probabilidad 1 , siendo 0 < < 1, la variable tome un valor en dicho intervalo. Si denotamos por z/2 y z1/2 a los extremos inferior y superior, respectivamente, de dicho intervalo, tenemos que P (z/2 X z1/2 ) = 1 . Observemos que, a partir de la denici on de z/2 y z1/2 , y teniendo en cuenta las propiedades de la normal est andar, los valores z/2 y z1/2 son los cuantiles de orden /2 y 1 /2, respectivamente, de la distribuci on normal est andar. Adem as, por la simetr a del modelo, obtenemos que z/2 = z1/2 .
En la Figura 6.11, mostramos la posici on de dichos cuantiles con respecto a la funci on de densidad de la distribuci on normal est andar. En el Cuadro A.3 se encuentran tabulados los cuantiles de orden p del modelo normal est andar para
0.3
0.4
z1
f(x)
0.1
0.2
0.0
2
3 2 1
1
0 x 1
2
2 3
Figura 6.11: Posici on de los cuantiles z/2 y z1/2 , con respecto a la funci on de densidad, de la distribuci on normal est andar. ciertos valores de p 0.5. Como z0.975 = 1.960 y z0.995 = 2.576, obtenemos que P (1.960 X 1.960) = 0.95 y P (2.576 X 2.576) = 0.99. Notemos que como la media es nula y la varianza es la unidad, aplicando la desigualdad de Tchebychev obtenemos una cota inferior de estas probabilidades. Como ya hemos comentado, el modelo normal est andar se caracteriza por la forma acampanada de su funci on de densidad centrada en 0 y de varianza 1. Si la funci on de densidad de una variable aleatoria X no est a centrada en 0 ni la varianza es 1, decimos que sigue un modelo o distribuci on normal de par ametros y 2 , con R y 2 > 0, y lo denotamos por N (, 2 ), cuando la funci on de densidad viene denida por f (x) =
(x)2 1 e 22 , x R. 2
Se verica que es el valor de su media y 2 el valor de su varianza. En la Figura 6.12 mostramos el comportamiento de la funci on de densidad del 2 on a los par ametros y que determinan las caracmodelo N (, ), en relaci ter sticas de dicho modelo normal. En esta situaci on, la funci on de densidad es sim etrica, centrada en y tiene un punto de inexi on de su curvatura a distancia del eje de simetr a, siendo la desviaci on t pica. Cuando = 0 2 y = 1, tenemos el modelo normal est andar. As pues, las propiedades del 2 alogas a las enumeradas para el modelo normal con par ametros y son an modelo normal est andar.
153
Manuales Uex
1 2
Figura 6.13: Comportamiento de la funci on de densidad de modelos normales en funci on de los par ametros y 2 . Los modelos normales son una familia de distribuciones que dependen de los par ametros y 2 . El cambio de la funci on de densidad dependiendo de los valores de dicho par ametros lo mostramos en la Figura 6.13, donde 1 < 2 y
2 2 1 < 2 . Concretamente, jada la varianza la funci on de densidad se desplaza
a la derecha manteniendo la misma forma al aumentar la media. En cambio, al aumentar la varianza, mayor es el aplastamiento de la funci on de densidad y as su dispersi on. Adem as, la transformaci on lineal de una variable aleatoria perteneciendo a esta familia, tambi en sigue un modelo normal. Concretamente, si X sigue una distribuci on normal N (, 2 ), entonces la variable aleatoria aX + b, con a, b R, es un modelo normal, en este caso, de par ametros a + b y a2 2 , que corresponde a su media y a su varianza, respectivamente. Como
ya hemos comentado en alguna ocasi on, a signica que hemos realizado un cambio de escala en las unidades de la variable X y b lo interpretamos como una traslaci on de todos los valores de la variable. Teniendo en cuenta esta propiedad, deducimos que si la variable aleatoria X sigue una distribuci on N (, 2 ), entonces la variable tipicada
1 0
Figura 6.14: Relaci on entre la funci on de densidad de un modelo normal de andar. par ametros y 2 y la de la normal est Z= X
sigue un modelo normal est andar. En la Figura 6.14 mostramos la relaci on entre la funci on de densidad de un modelo normal de par ametros y 2 y la de la normal est andar. Por ello el c alculo de probabilidades de la distribuci on normal N (, 2 ) lo reducimos al c alculo de probabilidades con la distribuci on normal est andar como sigue P (X x) = P (X x ) = P normal est andar, deducimos que x X =P Z x ,
para cualquier x R. As , teniendo en cuenta las probabilidades del modelo P ( X + ) = 0.683, P ( 1.96 X + 1.96 ) = 0.95, P ( 2 X + 2 ) = 0.954, P ( 2.576 X + 2.576 ) = 0.99. Por tanto, conocidos la media y la varianza de un modelo normal, obtenemos 95 % de los valores centrales de la variable aleatoria. Este hecho no contradice que el espacio muestral del modelo normal sea el conjunto de n umeros reales. que en el intervalo denido por los valores 1.96 y +1.96 , se encuentra el
incertidumbre en un proceso de medici on. As , en ausencia de cualquier tipo de error salvo el aleatorio y utilizando un instrumento calibrado, un modelo stico de las mediciones, normal N (, 2 ) describe el comportamiento probabil cuyo valor nominal est a representado por y la dispersi on entre las mismas
155
Manuales Uex
400
300
200
f(x)
f(x)
0.954
0.2
0.3
0.4
0.954
100
4.996
4.998
5.000 x
5.002
5.004
0.0 3
0.1
0 x
Figura 6.15: Relaci on entre las probabilidades del modelo normal de par ametros 5 y 0.000001 y la de la normal est andar. etricas alrededor de determinado por 2 . Notemos que las mediciones son sim su valor nominal, que en general es desconocido, a no ser un valor calibrado. Sin embargo, el valor de la varianza es proporcionado por las especicaciones del instrumento de medida. Ejemplo 6.13 Supongamos que la variable aleatoria Y , que describe el comportamiento aleatorio de medir con un distanci ometro con apreciaci on en mil metros y gran precisi on una distancia calibrada de valor nominal 5 m., sigue un modelo normal de media 5 m. (el valor medio de las mediciones coincide con la distancia calibrada en ausencia de errores sistem aticos) y varianza 0.000001 m2 (la desviaci on t pica de las mediciones es un mil metro). En esta situaci on, a partir del Cuadro A.2, tenemos que la probabilidad de que la medici on sea inferior a 5.002 m. la calculamos como Y 5 5.002 5 P (Y 5.002) = P = P (Z 2) = 0.977. 0.001 0.001 Asimismo P (Y 4.998) = P y por tanto 4.998 5 Y 5 0.001 0.001 = P (Z 2) = 0.023,
Manuales Uex
P (4.998 Y 5.002) = 0.954. Observemos que la variable aleatoria X = 1000(Y 5), considerada en el en mil metros sigue un modelo normal est andar. Ejemplo 6.12 y que describe el comportamiento aleatorio del error de medici on
156
mente. Este resultado es de utilidad cuando obtenemos la medici on de cierta distancia como suma de mediciones parciales. Si estas mediciones son independientes y el comportamiento probabil stico es descrito por modelos normales, entonces el comportamiento de la suma de las dos mediciones tambi en sigue una distribuci on normal con media la suma de las medias de las medidas parciales y varianza la suma de las varianzas de las medidas parciales. Ejemplo 6.14 Supongamos que una distancia calibrada de valor nominal 12 m. la dividimos en dos distancias calibradas parciales, de 5 m. y 7 m., respectivamente. Para medir la distancia total, utilizamos dos distanci ometros con apreciaci on en mil metros. El primero lo utilizamos para medir la primera distancia parcial, cuyo comportamiento en sus medicines lo describe una variable aleatoria X que sigue un modelo normal N (5, 0.000009). La segunda distancia parcial es medida de manera independiente a la primera por el otro distanci ometro, cuyo comportamiento en sus medicines lo describe una variable aleatoria Y que sigue un modelo normal N (7, 0.000016). Por tanto, el comportamiento probabil stico de la suma de las mediciones es descrita por un modelo normal N (12, 0.000025). Con ello, deducimos que m as del 95 % de los valores se encuentran entre 11.99 = 12 2 0.005 y 12.01 = 12 + 2 0.005. En la Figura 6.16, mostramos este hecho, donde comparamos la funci on de densidad asociada a cada una de las mediciones con el histograma de 10000 mediciones de cada una de las medidas parciales. La base te orica para armar que los modelos normales son los m as frecuentes y apropiados para explicar el comportamiento aleatorio de m ultiples situaciones pr acticas, en especial de un proceso de medici on, es el teorema central del l mila suma de variables aleatorias independientes cualesquiera, con medias y varianzas comunes, se aproxima, a medida que el n umero de sumandos aumenta, a un modelo normal. Concretamente, si X1 , . . . , Xn son n variables aleatorias independientes, con media y varianza 2 , no necesariamente siguiendo una
157
Manuales Uex
140
100
120
100
80
80
60
f(x)
f(y)
60
40
40
20
20
4.990
4.995
5.000 x
5.005
5.010
0 11.98
20
40
60
80
11.99
12.00 x+y
12.01
12.02
Figura 6.16: Comparaci on entre la funci on de densidad e histograma de un conjunto de 1000 observaciones de las variables X (gr aco de la izquierda), Y (gr aco central) y X + Y (gr aco de la izquierda) descritas en el Ejemplo 6.14. distribuci on normal, entonces el comportamiento probabil stico de la variable aleatoria
n i=1
Xi
se aproxima al de una distribuci on normal de media n y varianza n 2 , cuando n es sucientemente grande. Experimentalmente se ha probado que si n 30, la aproximaci on es sucientemente precisa. Ejemplo 6.15 Supongamos que para la situaci on descrita en el Ejemplo 6.12, consideramos la variable aleatoria Y que toma los valores 1 si el error es positivo y 1 si el error es negativo. Teniendo en cuenta la distribuci on del error,
2 deducimos que P (Y = 1) = P (Y = 1) = 0.5. Como Y = 0 y Y = 1, si
los n resultados de la variable Y , entonces el comportamiento asint otico de la variable aleatoria resultante se aproxima al del modelo normal de media nula y varianza n. En la Figura 6.17, mostramos la comparaci on de la funci on de probabilidad de la variable suma con respecto a la funci on de densidad del modelo normal asociado, para n = 2 (gr aco de la izquierda), n = 15 (gr aco central) y n = 30 (gr aco de la derecha). Observemos que, a pesar de ser la
variable suma discreta, su comportamiento probabil stico se va aproximando al de una variable aleatoria continua, cuando el n umero de sumandos aumenta. Adem as, los valores pr oximos a cero son los m as probables, es decir, los errores positivos se compensan con los negativos. Observemos que para comparar ambas distribuciones, hemos tenido que normalizar la funci on de probabilidad,
0.15
0.25
0.30
0.20
0.10
0.15
p(x)
p(x)
0.00
0.05
0.10
0 x
0.06
0.08
0.10
10
0 x
10
20
Figura 6.17: Comparaci on de la funci on de probabilidad de la variable suma considerada en el Ejemplo 6.15, con respecto a la funci on de densidad del modelo normal asociado, para n = 2 (gr aco de la izquierda), n = 15 (gr aco central) y n = 30 (gr aco de la derecha). dividiendo los valores de esta por dos, dado que dos valores consecutivos del espacio muestral de la suma distan dos unidades. Una aplicaci on u til del teorema central del l mite es la aproximaci on del comportamiento probabil stico de la distribuci on binomial por la normal. Dado que una variable aleatoria X con modelo binomial B (n, p) es la suma de n modelos de Bernoulli independientes de par ametro p, entonces P (X = k ) P (k 1/2 Y k + 1/2), k {1, . . . , n 1}, P (X = 0) P (Y 1/2) y P (X = n) P (Y n 1/2), siendo Y un modelo normal de media np y varianza np(1 p). En la pr actica, esta aproximaci on es buena si np(1 p) > 5. Observemos que si n es peque no y p cercano a cero o a uno, la distribuci on binomial presenta un asimetr a y por tanto no se puede aproximar por un modelo normal. En la Figura 6.18 comparamos la funci on de probabilidad de una variable aleatoria con modelo B (30, 0.5) frente a la funci on de densidad del modelo normal N (15, 7.5) asociado. Observamos que el area de cada rect angulo, de base 1 y area igual a lo que indica la funci on de probabilidad, es aproximadamente el a rea que queda bajo la densidad normal N (15, 7.5), dado que np(1 p) = 7.5 > 5. Ejemplo 6.16 Supongamos que en la situaci on descrita en el Ejemplo 6.13, consideramos que se ha producido una anomal a en la medici on de la distancia calibrada de valor nominal 5 m. cuando el valor de medici on diste m as de 2
159
Manuales Uex
0.10
0.15
10
15 x
20
25
Figura 6.18: Comparamos la funci on de probabilidad de una variable aleatoria con distribuci on B (30, 0.5) frente a la funci on de densidad del modelo normal N (15, 7.5). mil metros. Como la variable aleatoria Y que describe el comportamiento aleatorio de medici on sigue un modelo normal de media 5 m. y varianza 0.000001 on an omala, es m2 , obtenemos que la probabilidad de realizar una medici P (|Y 5| > 0.002) = 1 P (4.998 Y 5.002) = 0.046, teniendo en cuenta el Cuadro A.2. Si repetimos 1000 veces, de manera independiente, el experimento aleatorio de medir la distancia calibrada, tenemos que el n umero de mediciones an omalas es una variable aleatoria W que sigue un modelo binomial B (1000, 0.046). Para calcular la probabilidad de que el n umero de anomal as sea mayor o igual a 30, utilizamos la aproximaci on del modelo binomial B (1000, 0.046) al modelo normal N (46, 43.884) descrito por la variable T , pues 43.884 = np(1 p) > 5. Con todo ello, obtenemos que 29.5 46 P (W 30) P (T 29.5) = P Z 43.884 = 1 P (Z 2.491) = 0.994, siendo Z el modelo normal est andar.
Manuales Uex
6.3.3.
En lo que sigue presentamos algunos modelos de probabilidad de tipo continuo, que est an asociados directamente a la distribuci on normal est andar. Concretamente estudiamos la distribuci on 2 (ji-cuadrado) de Pearson, la distribuci on
160
0.4
n=2
3 0.3
n=4 n=8
f(x)
f(x) 0 2 4 x 6 8
0.0 0
0.1
0.2
10 x
15
20
Figura 6.19: Comportamiento de la funci on de densidad de modelos 2 de Pearson, en funci on del grado de libertad, para n=1 (gr aco de la izquierda) y n = 2, 4, 8 (gr aco de la derecha). t de Student y la distribuci on F de Snedecor. Estos modelos de probabilidad juegan un papel fundamental en la estad stica inferencial, pues describen el comportamiento probabil stico de medidas caracter sticas de un conjunto arbitrario de datos. El modelo 2 de Pearson es apropiado para describir el comportamiento probabil stico de la suma de variables aleatorias al cuadrado, cuando estas siguen un modelo normal est andar y son independientes. Ejemplo 6.17 Supongamos que para la situaci on descrita en el Ejemplo 6.12, estamos interesados en determinar el comportamiento probabil stico de la magnitud del error al cuadrado, m as que la del propio error. Si denotamos por Y a dicha variable aleatoria, tenemos que Y = X 2 , siendo X una variable aleatoria normal est andar que modeliza el error cometido en la medici on. Es f acil deducir que la media de la variable aleatoria Y es 1, pues coincide con la varianza de modelo normal est andar. Asimismo, obtenemos que el valor de su varianza es 2. En el gr aco de la izquierda de la Figura 6.19 mostramos el comportamiento de su funci on de densidad, que es no acotada y esta denida para cualquier n umero real no negativo. En general, decimos que la suma de los cuadrados de n variables aleatorias independientes con modelo normal est andar sigue una distribuci on 2 de Pearson con n grados de libertad y la denotamos por 2 (n). El n umero de sumandos
161
Manuales Uex
siendo Zi s modelos normales est andar independientes, sigue un modelo 2 (n). Dicha variable aleatoria es no negativa, continua, con espacio muestral no acotado y con asimetr a a la derecha, que disminuye conforme aumenta n. En la Figura 6.19 mostramos el comportamiento de la funci on de densidad de 2 on del grado de libertad, para n=1 (gr aco de modelos de Pearson, en funci la izquierda) y n = 2, 4, 8 (gr aco de la derecha). Adem as, tenemos que = n y 2 = 2n. El comportamiento probabil stico de un modelo 2 (n) se aproxima al de un modelo normal N (n, 2n), cuando n es sucientemente grande, pues es suma de variables aleatorias independientes. Para cualquier p, tal que 0 < p < 1, denotamos por 2 p (n) al cuantil de orden p de la variable aleatoria X , es decir P (X 2 p (n)) = p. Por tanto, si 0 < < 1, obtenemos que
2 P (2 /2 (n) X 1/2 (n)) = 1 . 2 En la Figura 6.20, mostramos la posici on de los cuantiles 2 /2 (n) y 1/2 (n)) con respecto a la funci on de densidad de la distribuci on 2 (n). En el Cuadro A.4 se encuentran tabulados los cuantiles de orden p del modelo 2 (n) para ciertos valores de p y n. Para valores grandes de n utilizamos la aproximaci on 2 a un modelo normal anteriormente mencionada. Como 0.025 (5) = 0.831 y
Manuales Uex
P (0.831 X 12.832) = 0.95, siendo X un modelo 2 de Pearson con 5 grados de libertad. Observemos que el intervalo propuesto, en el que se encuentran distribuidos el 95 % de los valores de la variable, no est a centrado en su media, debido a la asimetr a del modelo.
162
2 1 2 2 2 1 2 2
2 Figura 6.20: Posici on de los cuantiles 2 /2 (n) y 1/2 (n)) con respecto a la funci on de densidad de la distribuci on 2 (n).
Como veremos en el pr oximo tema, la distribuci on 2 de Pearson es apropiada para modelizar el comportamiento probabil stico de la cuasivarianza muestral de un conjunto de datos. El comportamiento de la media muestral es descrito por el modelo de probabilidad t de Student. Este modelo determina la relaci on probabil stica entre el modelo normal est andar y el modelo 2 (n). Concretamente, decimos que el comportamiento probabil stico del cociente entre un modelo normal y la ra z cuadrada del cociente de un modelo 2 de Pearson con n grados de libertad entre sus grados de libertad, ambos independientes, sigue una distribuci on t de Student con n grados de libertad y la denotamos por t(n). Los grados de libertad del modelo 2 de Pearson determinan el comportamiento de la distribuci on t de Student. As , la variable aleatoria Z T = ,
X n
siendo Z un modelo normal est andar y X un modelo 2 (n), ambos independientes, siguen un modelo t(n). Tenemos que la variable aleatoria T puede tomar cualquier valor real, sus distribuciones sim etrica con respecto al 0 y su dispersi on es mayor que la del modelo normal est andar. Adem as, su comporaumenta, siendo pr acticamente id entico cuando n es igual o mayor que 100. En la Figura 6.21, mostramos estos hechos, mediante la representaci on de la funci on de densidad del modelo t(n), para n = 1 y n = 4, y de la funci on de densidad del modelo normal est andar. Adem as tenemos que la media de tamiento probabil stico se aproxima al del modelo normal est andar cuando n
163
Manuales Uex
0.4
N(0,1) n=4
f(t)
0.2
0.3
n=1
0.1 0.0
0 t
Figura 6.21: Funci on de densidad del modelo t(n), para n = 1 y n = 4, comparada con respecto a la funci on de densidad del modelo normal est andar. la variable aleatoria T es nula, que coincide con su mediana, y su varianza depende de n mediante la expresi on 2 = n , n > 2. n2
Para cualquier p, tal que 0 < p < 1, denotamos por tp (n) al cuantil de orden p de la variable aleatoria T , es decir P (T tp (n)) = p. Por tanto, si 0 < < 1, obtenemos que P (t/2 (n) T t1/2 (n)) = 1 . Por la simetr a de la distribuci on t de Student, deducimos que t/2 (n) = y t1/2 (n), con respecto a la funci on de densidad de la distribuci on t(n). En t1/2 (n). En la Figura 6.22, mostramos la posici on de los cuantiles t/2 (n)
t(n) para ciertos valores de n y p, con p > 0.5. Para valores grandes de n
Manuales Uex
utilizamos la aproximaci on a un modelo normal est andar. Como t0.975 (2) = 4.303, entonces deducimos que P (4.303 T 4.303) = 0.95, siendo T un modelo t de Student con 2 grados de libertad.
164
0.3
0.4
t1
0.2
f(t)
0.1
2
0.0 5
1
0 t
2
5
Figura 6.22: Posici on de los cuantiles t/2 (n) y t1/2 (n)) con respecto a la funci on de densidad de la distribuci on t(n). La relaci on probabil stica entre dos modelos 2 de Pearson es descrita por el modelo de probabilidad F de Snedecor, conocido tambi en como F de Fisher. Concretamente, decimos que el cociente entre dos modelos 2 de Pearson independientes, con n grados de libertad el numerador y m grados de libertad el denominador, divididos entre sus grados de libertad sigue una distribuci on F de Snedecor con n y m grados de libertad y lo denotamos por F (n, m). Los grados de libertad de los modelos 2 de Pearson determinan el comportamiento de la distribuci on F de Snedecor. As , la variable aleatoria F = X/n , Y /m
siendo X e Y modelos 2 de Pearson independientes, con n y m grados de libertad, respectivamente, sigue un modelo F (n, m). Tenemos que la variable aleatoria F puede tomar cualquier valor real no negativo, con distribuci on asim etrica a la derecha. En la Figura 6.23, mostramos la funci on densidad del modelo F (n, m), para los valores de n y m, (2, 4), (10, 4), (4, 2) y (4, 10), en funci on de n y m, respectivamente. De su propia denici on, deducimos que si F es un modelo F (n, m), entonces 1/F es un modelo F (m, n). Adem as, si n = 1, la variable aleatoria F es el cuadrado de un modelo t de Student con m grados de libertad. La media y la varianza de la variable aleatoria F dependen de n y m mediante las expresiones = m 2m2 (n + m 2) , m > 2 y 2 = , m > 4. m2 n(m 2)2 (m 4)
165
Manuales Uex
1.0
1.0
n=2,m=4
0.8
0.6
0.6
0.8
n=4,m=10
0.4
n=10,m=4
0.4
f(f)
0.2
0.0
n=4,m=2
0 2
4 f
10
Figura 6.23: Funci on de densidad del modelo F (n, m), para los valores (2, 4), (10, 4), (4, 2) y (4, 10), en funci on de n y m, respectivamente. Para cualquier p, tal que 0 < p < 1, denotamos por Fp (n, m) al cuantil de orden p de la variable aleatoria F , es decir P (F Fp (n, m)) = p. Como 1/F es un modelo F (m, n), deducimos que F1p (m, n) = pues P 1 , Fp (n, m) = 1 p.
1 1 F Fp (n, m)
P (F/2 (n, m) F F1/2 (n, m)) = 1 , o equivalentemente, 1 P F F1/2 (n, m) = 1 . F1/2 (m, n) En la Figura 6.24, mostramos la posici on de los cuantiles F/2 (n, m) y F1/2 (n, m)) con respecto a la funci on de densidad del modelo F (n, m). En el Cuadro A.6 se encuentran tabulados los cuantiles de orden p del modelo F (n, m) para ciertos valores de n, m con p > 0.5. Como F0.975 (8, 6) = 5.600 y F0.975 (6, 8) = 4.650, obtenemos que P (0.215 F 5.600) = 0.95,
166
Manuales Uex
2 F
2
2 F1
2
(n, m)
(n, m)
Figura 6.24: Posici on de los cuantiles F/2 (n, m) y F1/2 (n, m)) con respecto a la funci on de densidad de la distribuci on F (n, m). siendo F un modelo F (8, 6), pues F0.025 (8, 6) = 1/F0.975 (6, 8) = 0.215. Como veremos en el pr oximo tema, la distribuci on F de Snedecor es apropiada para modelizar el comportamiento probabil stico de la relaci on entre las cuasivarianzas muestrales de dos conjuntos de datos, cada uno de ellos, extra dos de poblaciones distintas.
6.4.
Una vez estudiados los principales modelos de probabilidad para variables aleatorias, tanto discretas como continuas, a continuaci on describimos dos modelos de probabilidad asociados a vectores aleatorios. Estos modelos se caracterizan por denir distribuciones de probabilidad conocidas en cada una de las variables aleatorias que constituyen el vector aleatorio. Concretamente, estudiamos el modelo multinomial, asociado a la distribuci on binomial de las variables, y el modelo normal multidimensional, asociado a variables aleatorias con distribuci on normal. Con el n de reducir la notaci on, a partir de ahora, s olo consideramos vectores aleatorios con dos variables aleatorias, pudi endose extender las deniciones a vectores de dimensi on mayor.
6.4.1.
Distribuci on multinomial
Como hemos comentado, la distribuci on binomial es un modelo apropiado para describir el comportamiento probabil stico del n umero de veces que en n
167
Manuales Uex
sucesos considerados cubren todas las posibilidades, es decir, una estaci on total est a bien o mal calibrada, entonces la suma total de estaciones elegidas en las dos sesiones es dos. Matem aticamente este hecho lo expresamos como X + Y = 2.
esta expresi on como generalizaci on del modelo binomial y teniendo en cuenta que si en las n repeticiones del experimento, hemos observado x veces el suceso A e y el suceso B , entonces n x y veces hemos observado ni A ni B . Como ambos sucesos son incompatibles, la probabilidad de no observar ni A ni B on dada para el modelo es 1 pA pB . Si pA + pB = 1, obtenemos la expresi binomial, pues en esta situaci on, pB = 1 pA y X + Y = n. En cualquier
stico caso, los par ametros n, pA y pB determinan el comportamiento probabil del modelo multinomial. Adem as, las variables aleatorias X e Y son modelos on lineal binomiales B (n, pA ) y B (n, pB ), respectivamente. El grado de relaci entre ambas variables lo determina la covarianza, que admite la expresi on XY = npA pB . Observemos que es un valor negativo, pues valores altos de una variable est an asociados a valores bajos de la otra, dado que X, Y 0 y X + Y n. Adem as, la relaci on lineal entre ambas variables es perfecta si y s olo pA + pB = 1. En dicho caso, la relaci on est a determinada por la expresi on X + Y = n.
Ejemplo 6.19 Para el vector aleatorio descrito en el Ejemplo 6.18, deducimos que sigue un modelo multinomial de par ametros n = 2, pA = 0.6 y pB = 0.4. Adem as, como pA + pB = 1, el valor de una variable determina el valor de la otra mediante la expresi on X + Y = 2. En el siguiente ejemplo, no existe relaci on lineal entre las variables del modelo multinomial. Ejemplo 6.20 Para la situaci on descrita en el Ejemplo 6.18, supongamos que las estaciones totales mal calibradas las clasicamos en dos tipos, con desviaciones leves o con desviaciones graves. Consideramos que de las dos estaciones mal calibradas existentes en el almac en del Centro Universitario de M erida hay una de cada tipo. En esta situaci on, si la variable aleatoria X describe
169
Manuales Uex
6.4.2.
El modelo normal multivariante describe el comportamiento conjunto de un 2 )y vector aleatorio (X, Y ), donde X e Y siguen modelos normales N (X , X 2 as de los par ametros X , Y , N (Y , Y ), respectivamente. Este modelo, adem 2 2 on XY , que X y Y de ambas variables, depende del coeciente de correlaci determina la relaci on lineal entre las variables aleatorias X e Y . Concretamente, decimos que el vector aleatorio (X, Y ) sigue un modelo normal multivariante 2 2 de par ametros X , Y , X , Y y XY , si su funci on de densidad conjunta, f (x, y ), admite la expresi on 1 1 2(1 2 XY ) e a 2 2 x X y Y y Y 2XY + X Y Y
x X X
1 2 on es una generaXY . Observemos que esta expresi lizaci on de la funci on de densidad del modelo normal. Para que tenga sentido la expresi on suponemos que el valor absoluto de XY no sea la unidad. En el siendo a = 2X Y gr aco izquierdo de la Figura 6.25, mostramos la funci on de densidad conjunta del modelo normal multivariante, donde apreciamos la forma acampanada, en
Figura 6.25: Funci on de densidad de un modelo normal multidimensional junto a sus curvas de nivel. este caso, tridimensional. Las curvas de nivel, obtenidas como corte con planos paralelos al plano XY , las representamos en el gr aco derecho de la Figura 6.25. Esta curvas de nivel son elipses de ecuaci on 2 2 x X x X y Y y Y 1 2XY = k, + 2(1 2 X X Y Y XY ) siendo k una constante. Dichas elipses est a centradas en (X , Y ) y con orientaci on denida por el signo del coeciente de correlaci on. En la Figura 6.26 mostramos el comportamiento de la orientaci on de las curvas de nivel con respecto al signo del coeciente de correlaci on, negativo (gr aco de la izquierda), nulo (gr aco central) y positivo (gr aco de la derecha). Observamos que su orientaci on corresponde a la relaci on directa o inversa existente entre las variables aleatorias X e Y . Como comentamos en el tema anterior, un coeciente de correlaci on nulo, indica s olo independencia de tipo lineal entre ambas variables. En cambio, adem as las variables aleatorias X e Y son independientes. Por tanto, en el caso del modelo normal multivariante, la independencia es equivalente a la ausencia on lineal entre X e Y es de dependencia de tipo lineal. Si XY = 1, la relaci perfecta y denida por la expresi on Y = Y XY X + Y Y XY X . si el vector aleatorio (X, Y ) sigue un modelo normal multivariante, entonces
171
Manuales Uex
f(x,y)
y
x
Figura 6.26: Curva de nivel de la funci on de densidad de un modelo normal multidimensional con coeciente de correlaci on negativo (gr aco de la izquierda), nulo (gr aco central) y positivo (gr aco de la derecha). De modo an alogo a lo que suced a para la familia de distribuciones normales, tenemos que la combinaci on lineal de las coordenadas de un vector aleatorio con modelo normal multivariante es un modelo normal. Concretamente si
2 2 , Y (X, Y ) es un modelo normal multivariante de par ametros X , Y , X
la media y la varianza de la variable aleatoria aX + bY se obtiene a partir de las ecuaciones (5.2) y (5.3), expuestas en el tema anterior. Dado que los valores del vector aleatorio (X, Y ) son desconocidos a priori, en ocasiones, es de inter es determinar regiones centradas en el vector de medias on (X , Y ) donde garanticemos que los valores se concentran en dicha regi con cierta probabilidad. Para ello, nos basamos en las elipses denidas por las curvas de nivel. Asimismo, para facilitar los c alculos, suponemos que las
Manuales Uex
variables aleatorias X e Y son independientes, es decir, XY = 0. En esta situaci on, tenemos que la variable aleatoria X X X 2 + Y Y Y 2 ,
172
libertad. As , con probabilidad p garantizamos que el valor del vector aleatorio (X, Y ) se encuentra dentro de la elipse denida por la ecuaci on x X X 2 + y Y Y 2 = 2 p (2).
caso, para proponer una elipse tenemos que aplicar previamente una transformaci on para obtener variables aleatorias independientes. Ejemplo 6.21 Supongamos que las variables aleatorias X e Y describen el comportamiento probabil stico del error en la medici on de las coordenadas cartesianas del punto Q = (QX , QY ) con respecto a un sistema de referencia ortogonal con origen en O. Supongamos tambi en que el comportamiento probabil stico del vector (X, Y ) es un modelo normal multivariante de par ametros X = Y = 0 (en media no se comete error en la medici on),
2 2 X = Y = 0.000025 y XY = 0 (las mediciones de las coordenadas se rea-
Cuando 0 < |XY | < 1, entonces las variables X e Y son dependientes. En este
lizan de manera independiente). Como 2 0.95 (2) = 5.991 (ver Cuadro A.4), entonces con una probabilidad del 0.95 garantizamos que la posici on del punto Q, determinada por las mediciones, yace en la circunferencia con centro (QX , QY ) y radio 0.012 = 5.991 0.000025. En la Figura 6.27 mostramos la regi on de distribuci on del error de medici on (gr aco de la izquierda) y la regi on de distribuci on de las posiciones del punto Q determinadas por las mediciones (gr aco de la derecha), ambas con una probabilidad de 0.95.
173
Manuales Uex
(0,0)
0.95
QY
0.95
QX
Figura 6.27: Regi on de distribuci on del error de medici on (gr aco de la izquierda) y regi on de distribuci on de la posici on del punto Q (gr aco de la derecha), ambas con una probabilidad de 0.95, para la situaci on descrita en el Ejemplo 6.21.
6.5.
cias:
Pr acticas de laboratorio
Generar valores del experimento aleatorio asociado library(e1071); x<-rdiscrete(10000,prob=rep(1/5,5),value=1:5) plot(table(x)/length(x)) Para la descripci on de un modelo binomial, utilizamos las sentencias: Calcular la funci on de probabilidad n<-6; p<-0.25; x<-1; round(dbinom(x,n,p),3) Representar la funci on de probabilidad plot(0:n,dbinom(0:n,n,p),xlab="x",ylab="p(x)",type="h",lwd=4)
plot((-1):(n+1),pbinom((-1):(n+1),n,p),xlab="x", ylab="F(x)",type="s") Generar valores del experimento aleatorio asociado x<-rbinom(10000,n,p);plot(table(x)/length(x)) Para la descripci on de un modelo uniforme continuo, utilizamos las sentencias: Calcular la funci on de densidad a<--10; b<-10; x<-0; dunif(x,a,b) Representar la funci on de densidad x<-seq(a-5,b+5,0.01) plot(x,dunif(x,a,b),xlab="x",ylab="f(x)",type="l") Calcular la funci on de distribuci on x<-0; punif(x,a,b) Representar la funci on de distribuci on x<-seq(a-5,b+5,0.01) plot(x,punif(x,a,b),xlab="x",ylab="F(x)",type="s") Generar valores del experimento aleatorio asociado x<-runif(10000,a,b); hist(x,prob=T); abline(h=0.05,lty=2) Para la descripci on de un modelo normal, utilizamos las sentencias: Calcular la funci on de densidad me<-0; vari<-1; x<-0; dnorm(x,me,sqrt(vari)) Representar la funci on de densidad
175
Manuales Uex
x<-seq(-3.25,3.25,0.1) plot(x,dnorm(x,me,sqrt(vari)),type="l",xlab="x",ylab="f(x)") Calcular la funci on de distribuci on x<-0; pnorm(x,me,sqrt(vari)) Representar la funci on de distribuci on x<-seq(-3.25,3.25,0.1) plot(x,pnorm(x,me,sqrt(vari)),type="l",xlab="x",ylab="F(x)") Calcular el cuantil de orden p p<-0.975; round(qnorm(p,me,sqrt(vari)),3) Generar valores del experimento aleatorio asociado x<-rnorm(10000,me,sqrt(vari)); hist(x,prob=T) x<-seq(-3.25,3.25,0.1);lines(x,dnorm(x,me,sqrt(vari))) Para situaci on descrita en el Ejemplo 6.14, utilizamos las sentencias: Generar 1000 valores de cada modelo normal x<-rnorm(10000,5,0.003);y<-rnorm(10000,7,0.004); z<-x+y Representar y comparar los valores generados hist(z,br=50,prob=T,xlab="x+y",ylab="f(x+y)",main=) lines(x<-seq(min(z),max(z),0.0001),dnorm(x,12,sqrt(0.000025))) Para mostrar la aproximaci on del modelo binomial por el normal, utilizamos
177
Manuales Uex
x<-seq(-8,8,0.1); plot(x,pt(x,n),type="l",xlab="x",ylab="F(x)") Calcular el cuantil de orden p p<-0.975; round(qt(p,n),3) Para la descripci on de un modelo F de Snedecor, utilizamos las sentencias: Calcular la funci on de densidad n<-8; m<-6; x<-0; df(x,n,m) Representar la funci on de densidad x<-seq(0,15,0.1) plot(x,dt(x,n,m),type="l",xlab="x",ylab="f(x)") Calcular la funci on de distribuci on x<-0; pf(x,n,m) Representar la funci on de distribuci on x<-seq(0,15,0.1) plot(x,pf(x,n,m),type="l",xlab="x",ylab="F(x)") Calcular el cuantil de orden p p<-0.975; round(qf(p,n,m),3) Para la descripci on de un modelo multinomial, utilizamos las sentencias: Calcular la funci on de probabilidad conjunta
library(stats); pA<-0.6; pB<-0.2; x<-c(1,0,1) dmultinom(x,size=2,prob=c(pA,pB,1-pA-pB)) Para la descripci on de un modelo normal multidimensional, utilizamos las sentencias:
6.6.
Cuestiones y problemas
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) Si las variables aleatorias X e Y son independientes y siguen un modelo U [a, b], entonces la variable aleatoria X + Y sigue un modelo U [2a, 2b]. ii) Si la variable aleatoria X sigue un modelo normal N (25, 1), entonces se verica que P (X 25) = 0.5. iii) Si las variables aleatorias X e Y son independientes y siguen un modelo normal de media 0 y varianza 2. iv) Si la variable aleatoria X sigue un modelo normal est andar, entonces se verica que P (X 1) + P (X 1) > 1.
179
Manuales Uex
Manuales Uex
i) Calcular P (24.336 X 24.356) y P (24.331 X 24.361). ii) Si consideramos que la medici on obtenida es at pica si dista m as de 10 mil metros del valor esperado, calcular la probabilidad de obtener al menos una medici on at pica en 3 mediciones realizadas de manera independiente.
180
181
Manuales Uex
183
Manuales Uex
Una vez conocida la funci on de probabilidad o de densidad de una variable aleatoria, es posible determinar su comportamiento probabil stico y el del car acter que describe. Sin embargo, lo habitual es que, ya sea por razones econ omicas, de tiempo o f sicas, no tengamos acceso a todos los individuos de la poblaci on y por tanto no podemos determinar dichas funciones. En la pr actica s olo dispondremos de un conjunto de datos obtenidos al tomar los valores del car acter sobre un subconjunto de la poblaci on al que denominamos muestra. A partir de estos datos podemos extraer informaci on sobre la distribuci on de probabilidad de la variable que describe al car acter bajo estudio, utilizando las t ecnicas que expondremos en el bloque tem atico de inferencia estad stica. Pero para que este proceso de inferencia aporte resultados ables, los individuos de la muestra han de representar adecuadamente el comportamiento de toda la poblaci on en relaci on al car acter bajo estudio. La Teor a de una muestra representativa de una poblaci on. En este tema expondremos los aspectos fundamentales de esta teor a y analizaremos las propiedades de la media y la cuasivarianza muestral bajo la hip otesis de que los datos proceden de una variable que sigue un modelo normal. muestras estudia procedimientos, basados en el azar, destinados a seleccionar
185
Manuales Uex
7.2.
Como hemos comentado, cuando no es posible determinar el valor de una variable en todos los elementos de la poblaci on, seleccionamos un conjunto de individuos representativos, al que denominamos muestra. Para que la muestra sea representativa es preciso que el proceso de selecci on sea aleatorio y que cada elemento de la poblaci on tenga la misma oportunidad de ser incluido en la muestra. Al conjunto de datos obtenidos tras realizar este tipo de muestreo lo denominamos muestra aleatoria simple. El procedimiento de obtenci on de una muestra aleatoria simple depende de las caracter sticas de la poblaci on. Si los elementos de la poblaci on existen conceptualmente, pero no en la realidad, como sucede en el caso de las mediciones, las observaciones las obtenemos de manera consecutiva, repitiendo el experimento aleatorio de manera independiente bajo condiciones id enticas para los factores que son controlables. En cambio, cuando la selecci on la realizamos en una poblaci on de elementos tangibles, el n umero total de elementos es nito. En esta situaci on, cada elemento de la muestra lo seleccionamos al azar de entre todos los elementos de la poblaci on, despu es de reemplazar (devolver) a la poblaci on el u ltimo elemento seleccionado. Para seleccionar un elemento al azar, enumeramos consecutivamente los elementos de la poblaci on y mediante un software estad stico generamos un valor de un modelo uniforme discreto, siendo los ndices asignados su espacio muestral. Dicho valor indica el elemento a seleccionar. Este procedimiento de selecci on implica que las repeticiones son independientes y que en cada repetici on los elementos de la poblaci on son equiprobables. En ocasiones, cuando el tama no de la poblaci on es mayor que 30 y el tama no de la muestra no supera el 10 % del total, el elemento seleccionado puede no ser reemplazado y la muestra obtenida la consideramos aleatoria, pues las condiciones probabil sticas son muy parecidas en cada selecci on. Si no hay reemplazamiento y las condiciones no se satisfacen, entonces cada selecci on depende de las anteriores y la muestra no es aleatoria. Notemos que el tama no de la muestra aleatoria simple es menor que el tama no de la poblaci on, puesto que si podemos observar toda la poblaci on conocemos la distribuci on del car acter.
186
Manuales Uex
est a permitido y por tanto alguna estaci on puede repetirse en la selecci on. En esta situaci on, un muestreo sin reemplazamiento no ser a considerado como una muestra aleatoria simple, pues una vez conocidos los sucesos elementales de las 4 primeras selecciones, estar a determinado un vocamente el resultado de la u ltima selecci on. Notemos tambi en que si extraemos otra muestra aleatoria simple, los valores obtenidos variar an en general con respecto a la muestra anterior. Desde un punto de vista pr actico, no es f acil decidir cu ando se est an manteniendo condiciones id enticas durante el proceso de obtenci on de los datos. Adem as, como una muestra aleatoria simple es m as representativa cuanto m as homog eneos son los elementos de la poblaci on con respecto a la caracter stica a estudiar, cuando disponemos de informaci on extra sobre los elementos de la poblaci on, conviene tenerla en cuenta al seleccionar la muestra. A partir de esta informaci on, dividimos la poblaci on en estratos disjuntos, de modo que los elementos de cada estrato sean homog eneos y con comportamiento diferente respecto a los elementos de los otros estratos. Una vez formados los estratos, extraemos una muestra aleatoria simple de cada uno de ellos. La muestra total la denominamos muestras aleatorias simples independientes. Por ejemplo, si para medir cierta distancia o angulo utilizamos dos procedimientos diferentes, utilizado, pues este puede inuir en el comportamiento de la medici on. As , tenemos un conjunto de mediciones realizadas con el primer procedimiento y otro con las mediciones realizadas con el segundo. De cada uno de estos conjuntos extraemos una muestra aleatoria simple y la uni on de ambas constituyen
187
Manuales Uex
la informaci on proporcionada por una muestra aleatoria simple. Generalmente, dicha informaci on es una funci on de los valores de la muestra, como por ejemplo la media muestral o la cuasivarianza muestral, que sintetizan el comportamiento del conjunto de datos. Pero en las t ecnicas empleadas en inferencia estad stica no s olo es determinante la informaci on contenida en los datos.
(X1 , . . . , Xn )
S2
x1 x2 . . . xm
s2 1 s2 2 . . . s2 m
Cuadro 7.1: Valores de X y S 2 , cuando hemos observado m muestras aleatorias simples. Como dichas funciones son variables aleatorias, tambi en es de gran utilidad conocer la distribuci on de dichas funciones. Concretamente, si el vector aleatorio (X1 , . . . , Xn ) describe el comportamiento probabil stico de las muestras aleatorias simples de tama no n de la variable X , las variables aleatorias X= X1 + . . . + Xn 1 y S2 = (Xi X )2 , n n 1 i=1
n
describen el comportamiento probabil stico de la media muestral y la cuasivarianza muestral, respectivamente. Observemos que a las variables aleatorias X y S 2 las denotamos con letras may usculas a diferencia de la media muestral y cuasivarianza muestral de una muestra concreta fueron denotadas por x y s2 , respectivamente, en el bloque tem atico referido a estad stica descriptiva. Por tanto, x y s2 son los valores de las variables aleatorias X y S 2 , respectivamente, cuando la realizaci on del vector (X1 , . . . , Xn ) es una muestra con media muestral x y cuasivarianza muestral s2 . En el Cuadro 7.1 mostramos los valores de X y S 2 , cuando hemos observado m muestras aleatorias simples, donde xi,j denotan el valor de la i- esima observaci on de la muestra j - esima, y xj y s2 j denota a la media muestral y cuasivarianza muestral, respectivamente, de la muestral j - esima. Observemos que los valores de la media y la muestra aleatoria simple. Ejemplo 7.3 Supongamos que la variable aleatoria X describe el comportamiento aleatorio de observar cierta distancia, expresada en metros, con un
189
Manuales Uex
800
400
200
15.245
15.250
15.255
15.260
0 0.00000
500
1000
600
1500
0.00005
0.00010
0.00015
Figura 7.1: Comportamiento de la media muestral (gr aco de la izquierda) y la cuasivarianza muestral (gr aco de la derecha) de 10000 muestras aleatorias simples de tama no 5 extra das de manera independiente del experimento aleatorio asociado a la variable X descrita en el Ejemplo 7.3. distanci ometro con apreciaci on en mil metros. A continuaci on, mostramos dos muestras aleatorias simples de tama no 5 del experimento aleatorio asociado a X , junto a sus medias y cuasivarianzas muestrales. Muestra 1: 15.259, 15.257, 15.254, 15.257, 15.255;
2 x1 = 15.256 m. y s2 1 = 0.0000038 m .
Observamos que a pesar de ser diferentes las medias y las cuasivarianzas muestrales de cada muestra, sus valores est an pr oximos y estar an relacionados con el comportamiento probabil stico de la variable aleatoria X . En la Figura 7.1, mostramos el comportamiento de la media muestral (gr aco de la izquierda) y la cuasivarianza muestral (gr aco de la derecha) de 10000 muestras aleatorias simples de tama no 5 extra das de manera independiente del experimento aleatorio asociado a X . Observemos que los valores est an asociados a muestras y no a elementos de la poblaci on asociada a la variable aleatoria. A continuaci on estudiamos la distribuci on de las variables aleatorias X y S 2 ,
que denen la forma del histograma de los valores x y s2 dados en la Figura 7.1, cuando el n umero de muestras es sucientemente grande. Al comportamiento probabil stico de dichas variables lo denominamos distribuci on en el muestreo de la media muestral y de la cuasivarianza muestral, respectivamente. Este comportamiento depende del tama no muestral, as como de la distribuci on de
7.3.
En lo que sigue suponemos que X es una variable aleatoria con media y varianza 2 . Teniendo en cuenta que X es una transformaci on lineal de las variables aleatorias X1 , . . . , Xn , que son independientes, con media y varianza 2 , tenemos que X =
n n 1 1 2 2 2 , Xi = y X = 2 X i = n i=1 n i=1 n
es decir, el valor esperado para la media muestral es la media de la variable aleatoria X , independientemente del tama no muestral, y la varianza de la media muestral es la n- esima parte de la varianza de la variable X . De este hecho deducimos que la desviaci on t pica de la distribuci on de muestreo de la media muestral, a la que denominamos error est andar de la media, es / n. Por tanto, a medida que aumenta el tama no de la muestra, la dispersi on de los valores de la media muestral en torno al valor de la media de la variable se reduce, pues disponemos de mayor informaci on de la variable aleatoria X . Una vez determinado la media y la varianza de la variable aleatoria X , vamos a estudiar la distribuci on de dicha variable. Para ello distinguimos dos casos, atendiendo a si X sigue un modelo normal o no. Si X sigue un modelo normal de media y varianza 2 , teniendo en cuenta que un modelo normal, deducimos que la distribuci on de muestreo de la media muestral es tambi en normal, con media y varianza 2 /n. En esta situaci on, X y X pertenecen a la misma familia de distribuciones, aunque con par ametros distintos.
191
Manuales Uex
80
60
f(x)
40
20
50
100
150
15.24
15.25 x
15.26
15.27
Figura 7.2: Funci on de densidad de la variable aleatoria X (gr aco de la izaco de la quierda) y la funci on de densidad de la variable aleatoria X (gr derecha) para la situaci on descrita en el Ejemplo 7.4. Ejemplo 7.4 Supongamos que la variable aleatoria X , que describe el comportamiento probabil stico del proceso de medici on del Ejemplo 7.3, sigue un modelo normal N (15.254, 0.000025). El comportamiento de la media muestral de muestras aleatorias simples de tama no 5 es modelizado por la distribuci on normal N (15.254, 0.000005). En la Figura 7.2, mostramos la funci on de densidad de la variable aleatoria X (gr aco de la izquierda) y la funci on de densidad de la variable aleatoria X (gr aco de la derecha). Observamos que la dispersi on de la distribuci on de muestreo asociada a la media muestral es menor que la de la variable, teniendo ambas la misma media. Como P (15.254 1.96 0.000005 X 15.254 + 1.96 0.000005) = 0.95, deducimos que el valor de la media muestral del 95 % de las muestras aleatorias simples de tama no 5 extra das de manera independiente se encuentra entre 15.250 m. y 15.258 m. En la Figura 7.3, mostramos este hecho, comparando la funci on de densidad de X con los valores de la media muestral de 10000 muestras aleatorias simples de tama no 5 extra das de manera independiente del experimento aleatorio asociado a X . Notemos que la distancia entre los extremos del intervalo obtenido para la media de la variable aleatoria X es de 4 mil metros. Si pretendemos reducir esa distancia, tendremos que aumentar el tama no muestral, pues la dispersi on se reduce. Dicha distancia est a determinada por el cuantil de orden 0.975 de la normal est andar junto al error est andar de la media, independientemente del valor de dicha media. Por
192
Manuales Uex
150
100
0.95
50
15.245
15.250
15.255
15.260
15.265
0 15.245
50
100
150
15.250
15.255
15.260
15.265
Figura 7.3: Comparaci on entre la funci on de densidad de X con los valores de la media muestral de 10000 muestras aleatorias simples de tama no 5 extra das de manera independiente del experimento aleatorio asociado a X , descrito en el Ejemplo 7.4. ejemplo, si queremos que no diste m as de un mil metro, el tama no muestral n tiene que vericar que 1.96 0.001, n 2
es decir, el tama no muestral tiene que ser superior a 97 para que el valor de la media muestral del 95 % de las muestras aleatorias simples no diste m as de 1 mil metro de la media de la variable aleatoria X . Este hecho lo mostramos en la Figura 7.4, donde representamos la relaci on entre el tama no muestral y la distancia a la media de la variable aleatoria X de los extremos del intervalo que contiene al 95 % de los valores de la media muestral. En cambio, si la variable aleatoria X no sigue un modelo normal no podemos garantizar que el comportamiento probabil stico de X est e determinado por una distribuci on normal. Sin embargo, en virtud del teorema central del l mite aproximar por un modelo normal con media y varianza 2 /n, siempre que el ximaci on al modelo normal es independiente de la distribuci on probabil stica de la variable aleatoria X . tama no muestral sea sucientemente grande (n 30). Observemos que la aprodeducimos que la distribuci on de muestreo de la media muestral la podemos
193
Manuales Uex
distancia
0.002 0
0.004
0.006
0.008
0.010
50 n
100
150
Figura 7.4: Relaci on entre el tama no muestral y la distancia a la media de la variable aleatoria X de los extremos del intervalo que contiene al 95 % de los valores de la media muestral de muestras aleatorias simples del experimento aleatorio asociado a X , descrito en el Ejemplo 7.4. Ejemplo 7.5 Supongamos ahora que en la situaci on descrita en el Ejemplo 7.3, la variable aleatoria X sigue un modelo uniforme en el intervalo denido por los valores 15.239 y 15.269. En la Figura 7.5 mostramos el comportamiento de los valores de la media muestral de 10000 muestras aleatorias simples de tama no muestral n, con n = 1 (gr aco de la izquierda), n = 5 (gr aco central) y n = 36 (gr aco de la derecha), extra das de manera independiente del experimento aleatorio asociado a X . Observamos como a medida que aumenta el tama no muestral el comportamiento de los datos es descrito mejor por la funci on de densidad de un modelo normal de media y varianza 2 /n, siendo = 15.254 y 2 = 0.000075, valores correspondientes a la media y la varianza, respectivamente, del modelo uniforme asociado a la variable aleatoria X . Teniendo en cuenta este hecho y tomando n = 36, obtenemos que 0.000075 0.000075 P 15.254 1.96 X 15.254 + 1.96 0.95, 6 6 es decir, el valor de la media muestral del aproximadamente el 95 % de las muestras aleatorias simples de tama no 36 extra das de manera independiente se encuentra entre 15.253 m. y 15.255 m.
Incluso cuando la variable aleatoria X es de naturaleza discreta, la distribuci on en el muestreo de la media muestral la podemos aproximar por un modelo normal siempre que el tama no muestral sea sucientemente grande. En el caso particular que X tome como u nicos valores el cero y el uno, es decir, siga
100
40
80
30
60
20
40
10
20
15.240
15.245
15.250
15.255
15.260
15.265
15.270
15.240
15.245
15.250
15.255
15.260
15.265
50
100
150
200
250
15.250
15.252
15.254
15.256
15.258
15.260
Figura 7.5: Comportamiento de los valores de la media muestral de 10000 muestras aleatorias simples de tama no muestral n, con n = 1 (gr aco de la izquierda), n = 5 (gr aco central) y n = 36 (gr aco de la derecha), extra das de manera independiente del experimento aleatorio descrito en el Ejemplo 7.5. on de unos en la un modelo de Bernoulli, interpretamos X como la proporci muestra. Ejemplo 7.6 Supongamos que la variable aleatoria X descrita en el Ejemplo 7.1, sigue un modelo de Bernoulli de par ametro p = 0.6, siendo p = P (X = 1). Como el valor uno est a asociado al suceso elemental de seleccionar al azar una estaci on total bien calibrada de entre las existentes en el almac en del Centro Universitario de M erida, entonces la media muestral de una muestra aleatoria simple de tama no n nos indica el porcentaje de estaciones totales bien calibradas seleccionadas en las n repeticiones del experimento. Observemos que, en esta situaci on, el n umero total de estaciones totales bien calibradas sigue un modelo binomial B (n, 0.6) (ver Ejemplo 6.5 para n = 2). Como = p = 0.6, 2 = p(1 p) = 0.24 y z0.95 = 1.645 (ver Cuadro A.3), obtenemos que P 0.6 1.645 0.24 0.24 X 0.6 + 1.645 0.90, n n
valor de la media (porcentaje) muestral de aproximadamente el 90 % de las muestras aleatorias simples de tama no 100 extra das de manera independiente se encuentra entre 0.519 y 0.681.
195
Manuales Uex
7.4.
A continuaci on estudiamos el comportamiento probabil stico de la variable aleatoria S 2 asociada a una muestra aleatoria simple. Tenemos que, si la varianza de la variable aleatoria X es 2 , entonces la media de la variable aleano muestral y de la distribuci on toria S 2 es 2 , independientemente del tama de la variable aleatoria X . Sin embargo, un resultado para la distribuci on en el muestreo de la cuasivarianza muestral s olo es posible bajo el supuesto que la variable X siga un modelo normal. En este caso, el modelo 2 de Pearson est a asociado al comportamiento probabil stico de la variable aleatoria S 2 . Concretamente, tenemos que si la variable aleatoria X sigue un modelo normal con media y varianza 2 , entonces la variable aleatoria (n 1)S 2 , 2 sigue una distribuci on 2 de Pearson con n 1 grados de libertad. Observemos que los grados de libertad obedecen a la idea de que conocido el valor de la media muestral de una muestra de tama no n, s olo n 1 datos no est an determinados. Adem as, notemos que la distribuci on de S 2 no depende de la magnitud de y es diferente a la de la variable aleatoria X . Ejemplo 7.7 Retornando a la situaci on descrita en el Ejemplo 7.4, donde la variable aleatoria X sigue un modelo normal N (15.254, 0.000025), tenemos que el comportamiento probabil stico de la cuasivarianza muestral de muestras aleatorias simples de tama no 5 es modelizado a partir de la distribuci on 2 de Pearson con 4 grados de libertad. Como 4/0.000025=160000, obtenemos que la variable aleatoria 160000S 2 es un modelo 2 de Pearson con 4 grados de libertad. En la Figura 7.6 mostramos la funci on de densidad de la variable aleatoria X (gr aco de la izquierda) y la funci on de densidad de la variable aleatoria 2 2 aco de la derecha). Como 2 160000S (gr 0.025 (4) = 0.484 y 0.975 (4) = 11.143 (ver Cuadro A.4), tenemos que P (0.484 160000S 2 11.14329) = P (0.000003 S 2 0.000070) = 0.95. De ello deducimos que el valor de la cuasivarianza muestral del 95 % de las muestras aleatorias simples de tama no 5 extra das de manera independiente
196
Manuales Uex
80
60
f(x)
f(x)
40
0.10
0.15
0.95
20
15.24
15.25 x
15.26
15.27
0.00 0
0.05
5 x
10
15
Figura 7.6: Funci on de densidad de la variable aleatoria X (gr aco de la izaco de quierda) y la funci on de densidad de la variable aleatoria 160000S 2 (gr la derecha) para la situaci on descrita en el Ejemplo 7.7. se encuentra entre 0.000003 m2 . y 0.000070 m2 . Observemos que como en esta situaci on 2 es conocido, hemos obtenido un intervalo para la distribuci on de muestreo de la cuasivarianza muestral. En cambio, si el valor de 2 fuera desconocido, entonces el intervalo ser a para el cociente entre la cuasivarianza muestral y 2 , es decir, 0.484 S2 11.14329 P 2 = 0.95 4 4 Si la variable aleatoria X no sigue un modelo normal, la distribuci on en el muestreo de la cuasivarianza muestral no se ajusta a un modelo de probabilidad denido. En el siguiente ejemplo ponemos de maniesto este hecho. Ejemplo 7.8 Para la variable aleatoria X considerada en el Ejemplo 7.5, siendo X un modelo uniforme en el intervalo denido por los valores 15.239 y 15.269, tenemos que 2 = (0.03)2 /12 y (n 1)S 2 / 2 = 12(n 1)S 2 /(0.03)2 . En la Figura 7.7 mostramos el comportamiento de los valores de 12(n 1)S 2 /(0.03)2 para 10000 muestras aleatorias simples de tama no muestral n, grados de libertad, para n = 5 (gr aco de la izquierda) y n = 10 (gr aco de la
derecha). Observamos que la funci on de densidad no se ajusta a la silueta del histograma, siendo las discrepancias mayores al aumentar el tama no muestral.
197
Manuales Uex
0.15
0.10
0.05
0.00
10
12
0.00 0
0.02
0.04
0.06
0.08
0.10
0.12
0.14
10
15
20
Figura 7.7: Comportamiento de los valores de 12(n 1)S 2 /(0.03)2 para 10000 muestras aleatorias simples de tama no muestral n, junto a la funci on de densidad de la distribuci on 2 de Pearson con n 1 grados de libertad, para n = 5 (gr aco de la izquierda) y n = 10 (gr aco de la derecha), asociado a la situaci on descrita en el Ejemplo 7.8.
7.5.
Como ya hemos comentado, si la variable aleatoria X sigue un modelo normal on en el muestreo de la media muestral de media y varianza 2 , la distribuci es un modelo normal de media y varianza 2 /n. Tipicando, tenemos que la variable aleatoria X n sigue un modelo normal est andar, y por tanto la distribuci on en el muestreo de la distancia entre la media muestral y la media de la variable aleatoria s olo depende del tama no muestral y del valor de la varianza 1. Sin embargo, en la mayor a de las situaciones pr acticas, el valor de la varianza es desconocido. En estos casos, como la variable aleatoria (n 1)S 2 2 sigue un modelo 2 de Pearson con n 1 grados de libertad, las variables X y S 2 son independientes, entonces obtenemos que la variable aleatoria X n S sigue un modelo t de Student con n 1 grados de libertad, siendo S (la cuasidesviaci on t pica) la ra z cuadrada de S 2 . Teniendo en cuenta la relaci on
198
Manuales Uex
el comportamiento aleatorio del error medio cometido en 5 mediciones independientes de dicha distancia. Como la variable aleatoria X sigue un modelo
normal N (15.254, 0.000025) y z0.975 = 1.960 (ver Cuadro A.3), deducimos que 1.96 0.005 1.96 0.005 = 0.95, P Y 5 5 es decir, la magnitud del valor absoluto del error medio muestral del 95 % de las muestras aleatorias simples de tama no 5 no es superior a 4 mil metros. En cambio, si no conocemos que = 0.005, como t0.975 (4) = 2.776 (ver Cuadro A.5), obtenemos que P 2.776 2.776 Y S 5 5 = 0.95,
es decir, la magnitud del valor absoluto del cociente entre el error medio muestral y la cuasivarianza muestral del 95 % de las muestras aleatorias simples de tama no 5 no es superior a 1.241. Por tanto, si la cuasivarianza muestral de una muestra es 0.000005, obtenemos que el valor absoluto del error no es superior a 6 mil metros. Observemos que esta cota del error es superior a la obtenida anteriormente cuando el valor de la varianza era conocido. La base te orica de este hecho radica en que z0.975 < t0.975 (4).
7.6.
Supongamos ahora que la poblaci on bajo estudio la dividimos en dos subpoblaciones tales que el comportamiento probabil stico de la caracter stica de inter es en la primera subpoblaci on est a modelada por la variable aleatoria X y la de la segunda poblaci on por la variable aleatoria Y . Como hemos comentado anteriormente, esta situaci on corresponde, por ejemplo, al experimento
el muestreo de la media muestral y la cuasivarianza muestral de una muestra aleatoria simple extra da de cada una de las subpoblaciones lo describen las variables aleatorias, X=
2 = SX
X1 + . . . + XnX , nX
n
Y =
Y1 + . . . + YnY , nY
n
nos muestrales de las muestras aleatorias simples siendo nX y nY los tama extra das de la primera y segunda poblaci on, respectivamente. Observemos que hemos extra do las muestras aleatorias simples asociadas a cada poblaci on de manera independiente. As , el n umero total de datos es la suma de los tama nos muestrales. Como las muestras aleatorias simples son extra das de manera independiente los tama nos muestrales pueden ser diferentes. En lo que sigue estudiamos la distribuci on en el muestreo de la diferencia de las medias muestrales, es decir, la variable aleatoria X Y . Este estudio es de utilidad para valorar las discrepancias en el valor medio de las variables en ambas subpoblaciones. Asimismo, para comparar la discrepancias en la dispersi on de las variables en ambas subpoblaciones, tambi en consideramos el estudio de la distribuci on en el muestreo del cociente de las cuasivarianzas
2 2 muestrales, es decir, la variable aleatoria SX /SY .
7.6.1.
sigue un modelo normal est andar. Adem as, las variables aleatorias
2 2 (nY 1)SY (nX 1)SX y , 2 2 X Y
vemos que en este u ltimo caso, la variable aleatoria no depende de los valores de las varianzas, s olo de las cuasivarianzas muestrales. Ejemplo 7.10 Supongamos que para medir cierto a ngulo utilizamos de manera independiente dos teodolitos con apreciaci on en segundos. Si las variables que describen el comportamiento aleatorio de medir dicho angulo con cada uno de los teodolitos siguen modelos normales con medias y varianzas iguales,
X Y (X Y ) 2 2
1 nX
1 nY
201
Manuales Uex
1500
1500
1000
1000
500
500
32.5425
32.5430
32.5435
32.5440
32.5425
32.5430
32.5435
32.5440
0.0
0.1
0.2
0.3
Figura 7.8: Distribuci on en el muestreo de la diferencia de medias muestrales para el experimento aleatorio descrito en el Ejemplo 7.10. deducimos que la distribuci on en el muestreo de la diferencia de medias muestrales en muestras aleatorias simples de tama no 5 est a asociada a la variable aleatoria X Y , 2 2
SX + SY 5
que sigue un modelo t de Student con 8 grados de libertad. En la Figura 7.8 mostramos el comportamiento de los valores de la media muestral de 10000 muestras aleatorias simples de tama no 5 extra das de manera independiente del experimento aleatorio asociado a X (gr aco de la izquierda) y a Y (gr aco central), junto a la funci on de densidad del modelo normal asociada a la distribuci on en el muestreo de la media muestral. A partir de las 20000 muestras aleatorias simples, 10000 para cada procedimiento, obtenemos 10000 valores 2 + S 2 . En el gr de la variable aleatoria 5(X Y )/ SX aco de la derecha de Y
la Figura 7.8 mostramos el comportamiento de esos valores, junto a la funci on de la densidad del modelo t de Student con 8 grados de libertad que describe su comportamiento. Como las medias de las variables aleatorias son iguales, entonces la diferencia de las medias muestrales est a pr oxima a cero.
Manuales Uex
7.6.2.
En ocasiones las variables aleatorias X e Y no son independientes. En esta situaci on, para cada elemento de la poblaci on observamos el valor de las dos caracter sticas. As , una muestra aleatoria simple de tama no n consiste en seleccionar al azar n individuos a los que observamos a la vez tanto el
202
7.7.
Para nalizar con el estudio de la distribuci on en el muestreo con dos muestras aleatorias simples independientes, consideramos a continuaci on el comportamiento de las cuasivarianzas muestrales. Como las variables aleatorias
2 2 (nY 1)SY (nX 1)SX y , 2 2 X Y
203
Manuales Uex
Observemos que si las varianzas son iguales, entonces la variable aleatoria no depende de los valores de las varianzas, s olo de las cuasivarianzas muestrales.
Ejemplo 7.11 Retornamos a la situaci on descrita en el Ejemplo 7.10 para estudiar la distribuci on en el muestreo del cociente de las cuasivarianzas muestrales en muestras aleatorias simples de tama no 5. Teniendo en cuenta que las varianzas de ambas variables son iguales, tenemos que la variable aleatoria
2 SX 2 , SY
sigue un modelo F de Snedecor con 4 grados de libertad, tanto en el numerador como en el denominador. En la Figura 7.7 mostramos el comportamiento de los valores de la distribuci on de muestreo de la cuasivarianza muestral de 10000 muestras aleatorias simples de tama no 5 extra das de manera independiente del experimento aleatorio asociado a X (gr aco de la izquierda) y a Y (gr aco central), junto a la funci on de la densidad del modelo 2 de Pearson con 4 grados de libertad que lo describe. A partir de las 20000 muestras aleatorias simples, 10000 para cada subpoblaci on, obtenemos 10000 valores de la variable 2 2 aco de la derecha de la Figura 7.9 mostramos el aleatoria SX /SY . En el gr comportamiento de esos valores, junto a la funci on de la densidad del modelo F de Snedecor, F (4, 4), que describe su comportamiento. Como las varianzas son iguales, lo m as probable es que el cociente de las cuasivarianzas muestrales est e cercano a uno.
7.8.
Pr acticas de laboratorio
Para estudiar el comportamiento probabil stico de la situaci on descrita en el Ejemplo 7.1, utilizamos las sentencias: Extraer muestras del experimento aleatorio
n<-4; res<-sample(1:5,n,replace=T); as.numeric(res>=3) n<-4; res<-sample(1:5,n,replace=F); as.numeric(res>=3) Estudiar el comportamiento de las muestras
0.15
0.15
0.10
0.10
0.05
0.05
0.00
0.00
10
15
20
25
10
15
20
0.0 0
0.1
0.2
0.3
0.4
0.5
0.6
10
Figura 7.9: Distribuci on en el muestreo de la diferencia del cociente de cuasivarianzas muestrales para el experimento aleatorio descrito en el Ejemplo 7.11. res<-numeric() for(i in 1:10000){res<-rbind(res,sample(1:5,4,replace=T))} mean((res[,1]>=3)&(res[,2]<=2)&(res[,3]>=3)&(res[,4]>=3)) Para estudiar el comportamiento probabil stico de la situaci on descrita en el Ejemplo 7.4, utilizamos las sentencias: Extraer muestras del experimento aleatorio n<-5; res<-rnorm(n,15.254,0.005) Calcular la media muestral y la cuasivarianza muestral mean(res); var(res) Generar la distribuci on en el muestreo de la media muestral m<-10000; res<-rnorm(n*m,15.254,0.005) hist(apply(matrix(res,n,m),2,mean),xlab="",ylab="",main="",
205
Manuales Uex
Para estudiar el comportamiento probabil stico de la situaci on descrita en el Ejemplo 7.5, utilizamos las sentencias: Extraer muestras del experimento aleatorio n<-5; res<-runif(n,15.239,15.269) Calcular la media muestral y la cuasivarianza muestral mean(res); var(res) Generar la distribuci on en el muestreo de la media muestral m<-10000; res<-runif(n*m,15.239,15.269) hist(apply(matrix(res,n,m),2,mean),xlab="",ylab="",main="", br=50,prob=T); x<-seq(15.239,15.269,0.0001); lines(x,dnorm(x,15.254, sqrt(0.000075/5)),lty=2) Generar la distribuci on en el muestreo de la cuasivarianza muestral hist(4/((0.03)^2/12)*apply(matrix(res,n,m),2,var),xlab="", ylab="", main="",br=50,prob=T) lines(x<-seq(0,12,0.01),dchisq(x,4),lty=2)
206
Manuales Uex
7.9.
Cuestiones y problemas
Manuales Uex 207
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) Si X1 , . . . , Xn es una muestra aleatoria simple de tama no n, entonces la libertad. variable aleatoria S 2 sigue un modelo 2 de Pearson con n 1 grados de
4. Utilizando el software estad stico R mostrar, para la situaci on descrita en el Ejemplo 7.6, la aproximaci on de la distribuci on en el muestreo de la proporci on muestral a un modelo normal, cuando el tama no muestral es sucientemente grande.
2 +S 2 SX Y 5
es pr oxima a la de un modelo t de Student con 7 grados de libertad, donde el tama no muestral de las muestras aleatorias simples es 5.
209
Manuales Uex
211
Manuales Uex
En un experimento aleatorio es habitual desconocer el comportamiento del car acter bajo estudio en el global de la poblaci on debido a la imposibilidad de evaluar dicho car acter en todos y cada uno de los individuos. Para obtener alguna informaci on al respecto es necesario tomar una muestra representativa de la poblaci on, registrando el valor que toma el car acter o la variable asociada al mismo en cada uno de los individuos de dicha muestra. Una vez que disponemos de estos datos necesitamos herramientas para, de forma rigurosa, extraer conclusiones aplicables a toda la poblaci on. Al conjunto de estas t ecnicas lo denominamos Estad stica Inferencial. En el tema anterior, bajo el ep grafe de Teor a de muestras, hemos estudiado el comportamiento probabil stico de la media y la cuasivarianza muestral en muestras aleatorias simples asociadas a un experimento aleatorio. En este bloque tem atico exponemos las principales t ecnicas utilizadas en Estad stica contenida en la muestra al global de la poblaci on sino que tambi en nos dan la posibilidad de valorar la abilidad de la informaci on aportada por los datos. Los fundamentos probabil sticos de todo este proceso residen en la Teor a de muestras.
213
Manuales Uex
ces una situaci on param etrica puede ser asumida y las inferencias se centrar an en los par ametros media y varianza de la variable aleatoria. Determinar estos par ametros es de vital importancia, pues si en el proceso de medici on no intervienen m as errores que el aleatorio, entonces la media representa el valor real de la distancia medida por el distanci ometro y la varianza la dispersi on
8.2.
En todo lo que sigue, suponemos que la variable aleatoria X , que describe el comportamiento probabil stico del car acter de inter es, sigue un modelo normal de media y varianza 2 , siendo y 2 par ametros desconocidos. El objetivo que nos proponemos es aproximar mediante una estimaci on puntual dichos par ametros, a partir de la informaci on proporcionada por una muestra aleatoria simple de tama no n extra da del experimento aleatorio. Para ello hacemos uso de las variables aleatorias media muestral y cuasivarianza muestral, X= X1 + . . . + Xn 1 y S2 = (Xi X )2 , n n 1 i=1
n
215
Manuales Uex
La media muestral es una estimaci on puntual adecuada de la media de la variable aleatoria, incluso cuando esta no sigue un modelo normal. As , si la variable aleatoria sigue un modelo de Bernoulli con par ametro p, entonces la media muestral proporciona una estimaci on puntual de la proporci on p.
8.3.
Como hemos comentado anteriormente, una estimaci on puntual de la media de la variable es la media muestral. Sin embargo una respuesta de este tipo no es del todo satisfactoria, pues la estimaci on depende de la muestra y no proporcionamos el error que cometemos en la estimaci on. Dado que la media es desconocida y la muestra es aleatoria, no podemos obtener una cota de dicho error. Para proponer un intervalo distinguimos si la varianza de la variable aleatoria es conocida o no.
217
Manuales Uex
x z1 2 1 2 + z1 2 n
x + z1
x z1
x + z1
z1
z1
2 1 2 + z1 2 n
z1
2 1 2 + z1 2 n
Figura 8.1: Comportamiento de la distribuci on en el muestreo de la media muestral y de los intervalos de conanza para la media de un modelo normal.
8.3.1.
Si la variable aleatoria X sigue un modelo normal de media y varianza 2 , siendo este u ltimo par ametro un valor conocido, hemos estudiado en el bloque tem atico anterior que la distribuci on de muestreo de la media muestral de muestras aleatorias simples de tama no n sigue un modelo normal de media y varianza 2 /n. Teniendo en cuenta las propiedades del modelo normal, obtenemos que el 100(1 ) % de las medias muestrales de la muestras aleatorias simples se encuentran en el intervalo z1/2 , + z1/2 , n n
donde (0, 1) y z1/2 es el cuantil de orden 1 /2 del modelo normal est andar. El comportamiento de la distribuci on en el muestreo de la media muestral lo mostramos en la Figura 8.1. Observemos que el intervalo est a cen trado en el valor real de la media y con semiamplitud z1/2 / n, que nos
indica la distancia m axima del 100(1 ) % de las medias muestrales al valor de la media. Por tanto, un intervalo de conanza para al nivel 1 es x z1/2 , x + z1/2 , n n
el valor real de la media est a incluido en el intervalo, el error de aproximar dicho valor por la media muestral no ser a superior a z1/2 / n, independientemente de la magnitud de . Como utilizamos una muestra aleatoria que
219
Manuales Uex
7.010
7.005
7.000
6.995
6.990
10
20
30
40
50
6.990 0
6.995
7.000
7.005
7.010
7.015
7.020
20
40 n
60
80
100
Figura 8.2: Comportamiento de los intervalos de conanza de la media al nivel 0.95 asociados a 50 muestras aleatorias simples (gr aco de la izquierda) y evoluci on de la estimaci on, tanto puntual como por intervalo, de la media al aumentar el tama no muestral (gr aco de la derecha), para la situaci on descrita en el Ejemplo 8.4. Del mismo modo, como z0.95 = 1.645 y z0.995 = 2.576 (ver Cuadro A.3), obtenemos que los intervalos de conanza para la media a los niveles de conanza 0.9 y 0.99, son (6.997, 7.005) y (6.995, 7.007), respectivamente. Observemos que al aumentar la conanza, disminuye la precisi on en la determinaci on del valor de la media, pues aumenta la amplitud del intervalo. Cuando n = 4 y = 0.05, obtenemos que el intervalo de conanza acota al verdadero valor de la media con una precisi on de 5 mil metros y un 95 % de conanza, independientemente de la muestra seleccionada. Si queremos aumentar dicha precision, manteniendo el nivel de conanza, tenemos que aumentar el tama no muestral. Para obtener un intervalo de conanza para la media con un nivel de conanza 0.95 tal que la precisi on sea de un mil metro, el tama no muestral m nimo es de 97. En el gr aco de la derecha de la Figura 8.2 mostramos la evoluci on de la estimaci on, tanto puntual como por intervalo, de la media al aumentar el tama no muestral.
8.3.2.
En todo lo anterior, hemos supuesto conocida la magnitud de la varianza de la variable aleatoria X . Sin embargo, es posible proporcionar un intervalo de conanza para la media sin necesidad de conocer el valor de la varianza de la variable. Concretamente si X sigue una distribuci on normal de media y varianza 2 , ambos par ametros desconocidos, y n es el tama no muestral, hemos
donde (0, 1) y t1/2 (n 1) es el cuantil de orden 1 /2 del modelo t de el siguiente intervalo de conanza para con un nivel de conanza de 1
siendo s la ra z cuadrada de la cuasivarianza muestral. Observemos que la amplitud del intervalo de conanza cuando no conocemos el valor de la varianza es, en general, mayor que cuando conocemos el valor de la varianza, intervalo, el error cometido al aproximar dicho valor por la media muestral no ser a superior a t1/2 (n 1)s/ n. Ahora bien, s olo tenemos una conanza de a incluido en el pues z1/2 t1/2 (n 1). Si el valor real de la media est
Ejemplo 8.5 Si para la situaci on descrita en el Ejemplo 8.2, s olo utilizamos la informaci on proporcionada por la muestra y no las especicaciones del distanci ometro sobre su dispersi on, tenemos que n = 4, x = 7.001 m. y s2 = 0.000029 m2 . Como t0.975 (3) = 3.182 (ver Cuadro A.5), el intervalo de conanza para la media con un nivel de conanza de 0.95 es s s x t1/2 (n 1) , x + t1/2 (n 1) = (6.992, 7.010). n n As , la media del distanci ometro se encuentra en el intervalo denido por los valores 6.992 y 7.010, con una conanza del 95 %. Observemos que el intervalo de conanza obtenido tiene amplitud mayor que el obtenido cuando conocemos el valor de la varianza.
221
Manuales Uex
222
Manuales Uex
2 1 2 2 2 1 2 2
2 Figura 8.3: Posici on de los cuantiles 2 /2 (n 1) y 1/2 (n 1)) con respecto a la funci on de densidad de la distribuci on 2 (n 1).
8.4.
Cuando el valor de la varianza de una variable aleatoria que sigue un modelo normal es desconocido, una estimaci on por intervalo del mismo es posible. Este intervalo nos es de utilidad, por ejemplo, para valorar la variabilidad en las mediciones de un instrumento de medida, cuando no conocemos las especicaciones del mismo al respecto. Como estudiamos en el bloque tem atico anterior, la distribuci on en el muestro de (n 1)S 2 / 2 es una distribuci on 2 de Pearson con n 1 grados de libertad. Entonces tenemos que (n 1)S 2 (n 1)S 2 2 P 2 = 1 , 2 /2 (n 1) 1/2 (n 1)
la distribuci on 2 de Pearson no es sim etrica. Sin embargo, las propiedades e interpretaci on del intervalo son an alogas a las del intervalo para la media. Notemos que si la variable aleatoria X no sigue un modelo normal, el intervalo de conanza anterior no es v alido para la varianza de la variable.
223
Manuales Uex
intervalo de conanza para la varianza con un nivel de conanza 0.95 es (n 1)s2 (n 1)s2 , 2 = (0.000009, 0.000403). 2 1/2 (n 1) /2 (n 1) As , la varianza asociada al distanci ometro se encuentra en el intervalo denido por los valores 0.000007 y 0.000306, con una conanza del 95 %.
8.5.
En todo lo anterior, las inferencias estad sticas se han basado en la informaci on contenida en una muestra aleatoria simple. En lo que sigue, consideramos los m etodos de estimaci on por intervalo para dos muestras aleatorias simples independientes. As , suponemos que la poblaci on bajo estudio la dividimos en dos subpoblaciones tal que el comportamiento probabil stico de la caracter stica de inter es en la primera subpoblaci on est a modelada por la variable aleatoria X y la de la segunda poblaci on por la variable aleatoria Y . Un ejemplo de esta situaci on est a asociado al experimento aleatorio de medir cierta distancia o angulo con dos procedimientos diferentes, siendo las mediciones realizadas con cada procedimiento una subpoblaci on de la poblaci on total de mediciones. Asimismo, suponemos que las variables aleatorias X e Y son modelos normales
2 2 independientes con medias X y Y , y varianzas X y Y , respectivamente.
El comportamiento probabil stico en el muestreo de la media muestral y la cuasivarianza muestral de una muestra aleatoria simple extra da de cada una de las subpoblaciones lo describen las variables aleatorias,
Manuales Uex
X=
2 = SX
X1 + . . . + XnX , nX
n
Y =
Y1 + . . . + YnY , nY
n
224
En este modelo, adem as del estudio individual de cada par ametro, es de inter es determinar intervalos para ciertas funciones de los mismos. Concretamente, proporcionamos intervalos de conanza para el cociente de varianzas y para la diferencia de medias. Si suponemos que X e Y describen el comportamiento probabil stico de las mediciones de una cierta distancia o angulo con dos instrumentos de medida diferentes, entonces un intervalo de conanza para el cociente de las varianza es u til para comparar la precisi on en la medici on de cada uno de estos instrumentos, consider andose de la misma precisi on cuando el cociente sea la unidad. Asimismo, un intervalo de conanza para la diferencia de medias es de utilidad para la comparaci on de la discrepancia en las mediciones con cada instrumento. En primer lugar proporcionamos un intervalo de conanza para el cociente de varianzas. Como las muestras aleatorias simples asociadas a cada poblaci on son extra das de manera independiente, hemos comentado en el bloque tem atico
2 2 2 2 SX /X SY sigue un modelo anterior que la distribuci on en el muestreo de Y
la posici on de los cuantiles F/2 (nX 1, nY 1) y F1/2 (nX 1, nY 1) con respecto a la funci on de densidad de la distribuci on F (nX 1, nY 1).
225
Manuales Uex
(nX 1, nY 1)
2 F1
2
(nX 1, nY 1)
Figura 8.4: Posici on de los cuantiles F/2 (nX 1, nY 1) y F1/2 (nX 1, nY 1)) con respecto a la funci on de densidad de la distribuci on F (nX 1, nY 1). Teniendo esto en cuenta, construimos el siguiente intervalo de conanza para 2 2 /X al nivel de conanza 1 el cociente de varianzas Y s2 s2 Y Y F/2 (nX 1, nY 1) 2 , F1/2 (nX 1, nY 1) 2 . sX sX
2 Observemos que el intervalo obtenido no es sim etrico con respecto s2 Y /sX , pues la distribuci on F de Snedecor no es sim etrica. Sin embargo, las propiedades e interpretaci on del intervalo son an alogas a las de los intervalos para la media y la varianza. Por convenio, cuando calculamos intervalos de conanza del cociente de varianzas, en el numerador ponemos la varianza de la poblaci on que tiene mayor varianza muestral. Recordamos tambi en que para el c alculo de cuantiles de un modelo F de Snedecor, tenemos que
F/2 (nX 1, nY 1) =
1 . F1/2 (nY 1, nX 1)
Notemos que si las variables aleatorias X e Y no siguen modelos normales, entonces el intervalo de conanza anterior no es v alido para el cociente de varianzas. Ejemplo 8.8 Supongamos que para medir cierto a ngulo utilizamos de manera independiente dos teodolitos con apreciaci on en segundos, de modo que las variables que describen el comportamiento aleatorio de medir dicho a ngulo con cada uno de los teodolitos siguen modelos normales. Seleccionadas las siguientes muestras aleatorias simples de tama no 5 asociadas a cada uno de los teodolitos, Muestra X : 35.3428, 35.3426, 35.3423, 35.3426, 35.3424,
226
Manuales Uex
y F0.95 (4, 4) = 6.388 (ver Cuadro A.6), el intervalo de conanza del cociente
2 2 Y /X al nivel de conanza 0.90 est a denido por los valores 0.172 y 7.006.
Como la unidad est a contenida en el intervalo de conanza, entonces podemos asumir que la dispersi on en la mediciones de ambos distanci ometros es la misma, con una conanza del 90 %.
8.6.
A continuaci on proporcionamos un intervalo de conanza para la diferencia de medias X Y . Un intervalo de este tipo nos es u til, por ejemplo, para valorar la exactitud de dos instrumentos de medida. En la exposici on distinguimos entre muestras aleatorias simples independientes y muestras aleatorias relacionadas.
8.6.1.
comentado en el bloque tem atico anterior que la distribuci on en el muestreo de la variable aleatoria X Y sigue un modelo normal de media X Y y
2 2 varianza X /nX + Y /nY . Por tanto, 2 2 2 2 X X + Y X Y X Y + z1/2 + Y = 1 , PX Y z1/2 nX nY n X nY
227
Manuales Uex
do trabajamos con instrumentos de medida, la dispersi on en las mediciones son proporcionadas en las especicaciones del instrumento. Sin embargo, en un proceso de calibraci on de los instrumentos, el valor de la varianza es desconocido. En dicha situaci on, si suponemos que las varianzas son desconocidas
2 2 pero iguales, es decir, X = Y , obtenemos que la distribuci on en el muestreo
de la variable aleatoria
X Y (X Y ) , SXY
sigue una distribuci on t de Student con nX + nY 2 grados de libertad, siendo 2 + (n 1)S 2 (nX 1)SX 1 1 Y Y + SXY = . nX + nY 2 nX nY Por tanto, P X Y t1/2 (nXY )SXY X Y X Y + t1/2 (nXY )SXY = 1 ,
construimos el siguiente intervalo de conanza para la diferencia de medias X Y al nivel de conanza 1 x y t1/2 (nX + nY 2)sXY , x y + t1/2 (nX + nY 2)sXY ,
siendo sXY la realizaci on de la variable aleatoria SXY . Observemos que el intervalo de conanza est a centrado en la diferencia de las medias muestrales.
2 2 Como las varianzas X y Y son desconocidas, para valorar si las podemos su2 2 /Y . En poner iguales, utilizamos un intervalo de conanza para el cociente X
el caso de varianzas distintas, es posible construir otro intervalo de conanza para la diferencia de medias, pero de formulaci on m as compleja, implicando la distribuci on t de Student.
Ejemplo 8.9 Retornando a la situaci on descrita en el Ejemplo 8.8, tenemos que la dispersi on en las mediciones de cada uno de los teodolitos es desconocida, pero las podemos asumir iguales. En ese caso, como x = 35.3425, y = 35.3424,
2 s2 X = 0.000000031, sY = 0.000000034 y t0.95 (8) = 1.860 (ver Cuadro A.5),
8.6.2.
Hasta ahora hemos considerado que las variables aleatorias X e Y son independientes. En ocasiones ambas variables est an relacionadas y los m etodos anteriormente descritos no son aplicables. Como ya hemos comentado en alguna ocasi on, las mediciones de dos angulos horizontales utilizando la misma referencia es un caso t pico de dependencia, pues el valor de la medici on de un a ngulo condiciona el valor de la medici on del otro. En una situaci on de dependencia, suponemos que observamos dos muestras aleatorias relacionadas de tama no n, es decir, una realizaci on del vector ((X1 , Y1 ), . . . , (Xn , Yn )), siendo los vectores (Xi , Yi ) con i {1, . . . , n} independientes y con la misma distribuci on que (X, Y ). Como la media de la variable aleatoria D = X Y es X Y , entonces proporcionar un intervalo de conanza para la diferencia de medias X Y , consiste en proponer un intervalo de conanza para la media de la variable aleatoria D. Si suponemos que esta variable sigue un modelo normal, como una muestra aleatoria simple de tama no n asociada a la variable aleatoria D es una realizaci on del vector aleatorio (D1 , . . . , Dn ), siendo Di = Xi Yi con i {1, . . . , n}, tenemos que SD SD P D t1/2 (n 1) D + t1/2 (n 1) = 1 , n n donde (0, 1), t1/2 (n 1) es el cuantil de orden 1 /2 del modelo t de Student con n 1 grados de libertad, D es la variable media muestral y SD es la ra z cuadrada de la variable cuasivarianza muestral, ambas de la distribuci on de muestreo de la variable aleatoria D. Teniendo esto en cuenta, construimos el siguiente intervalo de conanza para la diferencia de medias X Y con un nivel de conanza de 1 sD sD d t1/2 (n 1) , d + t1/2 (n 1) , n n z cuadrada de la cuasivarianza muestral siendo d la media muestral y sD la ra de la muestra aleatoria simple asociada a la variable aleatoria D.
229
Manuales Uex
X Y
Figura 8.5: Distribuci on de los angulos considerados en la situaci on descrita en el Ejemplo 8.10. Ejemplo 8.10 Supongamos que estamos interesados en medir un angulo horizontal , con un teodolito con apreciaci on en segundos. Dicho angulo lo obtenemos como diferencia de dos angulos, y , como mostramos en la Figura 8.5. Suponemos tambi en que para medir el angulo utilizamos la misma referencia que para medir el angulo , es decir, ambas mediciones est an relacionadas (ver Ejemplo 5.10). Si las mediciones de los a ngulos y est an modeladas por las variables aleatorias X e Y , respectivamente, a trav es de un modelo normal multivariante, entonces D es una variable normal y X Y determina el
diferencias de medias, observamos una muestra aleatoria simple de tama no 4, donde cada observaci on consiste en la medici on de los dos angulos implicados, utilizando la misma referencia. En el Cuadro 8.1 mostramos los valores de los angulos de cada observaci on en notaci on centesimal junto a la diferencia de on puntual angulos. Como x = 61.7811 e y = 25.3455, entonces una estimaci as, del valor del angulo horizontal de inter es es d = x y = 36.4356. Adem
como sD = 0.0002 y t0.995 (3) = 5.841 (ver Cuadro A.5), un intervalo de con-
anza para la diferencia de medias al nivel de 0.99 est a denido por los valores 36.4350 y 36.4362. Como hemos comentado, para disminuir la amplitud del intervalo, o bien aumentamos el tama no muestral o bien bajamos el nivel de conanza.
Muestra
1a
2a
3a
4a
X Y D
Cuadro 8.1: Una muestra aleatoria simple de tama no 4 para la situaci on descrita en el Ejemplo 8.10.
8.7.
Pr acticas de laboratorio
Para obtener inferencias por estimaci on para la situaci on considerada en el Ejemplo 8.2, utilizamos las sentencias: Cargar el conjunto de datos x<-c(7.001, 7.005, 6.993, 7.004) Calcular una estimaci on puntual y por intervalo de la media con varianza conocida round(mean(x),3); alpha<-0.05; sigma<-0.005 round(mean(x)-qnorm(1-alpha/2)*sigma/sqrt(length(x)),3) round(mean(x)+qnorm(1-alpha/2)*sigma/sqrt(length(x)),3) Interpretar los intervalos de conanza n<-4; m<-50; x<-apply(matrix(rnorm(n*m,7,sigma),n,m),2,mean) plot(1:m,xi<-x-qnorm(1-alpha/2)*sigma/sqrt(n),ylim=c(6.99,7.01)) plot(1:m,xs<-x+qnorm(1-alpha/2)*sigma/sqrt(n),ylim=c(6.99,7.01)) for(i in 1:m){lines(c(i,i),c(xi[i],xs[i]))}; abline(h=7,lty=2) Calcular el intervalo de conanza aumentando el tama no muestral
231
Manuales Uex
par(new=T)
n<-100; x<-rnorm(n,7,sigma); xx<-cumsum(x)/(1:length(x)) plot((1:length(x)),xx,ylim=c(6.99,7.02),type="l",lty=2) lines((1:length(x)),xx-1.96*0.005/sqrt((1:length(x))),lty=4) lines((1:length(x)),xx+1.96*0.005/sqrt((1:length(x))),lty=4) abline(h=7) Calcular una estimaci on puntual y por intervalo de la media con varianza desconocida round(mean(x),3); alpha<-0.05 round(t.test(x,conf.level=1-alpha)$conf.int,3) Calcular una estimaci on puntual y por intervalo de la varianza round(var(x),7) (length(x)-1)*var(x)/qchisq(1-alpha/2,length(x)-1) (length(x)-1)*var(x)/qchisq(alpha/2,length(x)-1) Para obtener inferencias por estimaci on para la situaci on considerada en el Ejemplo 8.6, utilizamos las sentencias: Cargar el conjunto de datos x<-rep(c(1,0),c(64,36)) Calcular una estimaci on puntual y por intervalos de la proporci on round(mean(x),3) round(t.test(x,conf.level=0.95)$conf.int,3) Para obtener inferencias por estimaci on para la situaci on considerada en el
Ejemplo 8.8, utilizamos las sentencias: Cargar el conjunto de datos x<-c(35.3428, 35.3426, 35.3423, 35.3426, 35.3424) y<-c(35.3424, 35.3420, 35.3425, 35.3425, 35.3424)
round(t.test(x,y,var.equal=T,conf.level=1-alpha)$conf.int,4) round(t.test(x,y,var.equal=F,conf.level=1-alpha)$conf.int,4) Para obtener inferencias por estimaci on para la situaci on considerada en el Ejemplo 8.10, utilizamos las sentencias: Cargar el conjunto de datos x<-c(61.7814, 61.7812, 61.7805, 61.7813) y<-c(25.3457, 25.3455, 25.3452, 25.3455); d<-x-y Calcular estimaci on puntual de las medias mean(x); mean(y); mean(d) Calcular estimaci on por intervalo para la diferencia de medias
alpha<-0.01 round(t.test(x,y,pair=T,conf.level=1-alpha)$conf.int,4)
233
Manuales Uex
8.8.
Cuestiones y problemas
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) La amplitud del intervalo de conanza para la media de una distribuci on normal aumenta con el nivel de conanza. ii) La varianza muestral es la mejor estimaci on puntual para la varianza de una variable aleatoria. iii) La amplitud del intervalo de conanza para la media de una distribuci on normal con varianza desconocida no depende de la muestra. iv) Un intervalo conanza al 95 % para la varianza de una variable es un intervalo que contiene el 95 % de los valores posibles del par ametro. v) La amplitud del intervalo de conanza para la media de una distribuci on normal con varianza conocida aumenta con el tama no de la muestra. vi) Los extremos del intervalo de conanza para la varianza de una distribuci on normal dependen de la media. 2. Supongamos que el intervalo de conanza al 95 % para el valor medio de las mediciones de cierta distancia calibrada proporcionadas por un distanci ometro contiene al verdadero valor de dicho par ametro. Tambi en lo contendr a el intervalo de conanza del nivel 99 %?. Y el del 90 %?. 3. Sea 12.350, 12.351, 12.345, 12.342 un conjunto de mediciones expresadas en metros de cierta distancia, utiliz andose para ello un distanci ometro con apreciaci on en mil metros. Suponemos que las mediciones proporcionadas por el distanci ometro siguen una distribuci on normal y las mediciones son independientes y est an exentas de cualquier tipo de errores salvo el aleatorio.
Manuales Uex
i) Calcular la media muestral y la cuasivarianza muestral de las mediciones observadas. ii) Proporcionar un intervalo de conanza al 95 % para el valor medio de las mediciones. Interpretar el resultado obtenido.
234
235
Manuales Uex
Cuando aplicamos m etodos de estad stica inferencial basados en estimaci on pretendemos, como objetivo u ltimo del estudio, valorar y cuanticar una caracter stica de la poblaci on a partir de la informaci on contenida en una muestra. En cambio, en muchas ocasiones pr acticas, no estamos interesados en estimar sino en comprobar cierta restricci on o suposici on. La herramienta estad stica inferencial para tal n es gen ericamente referida como contraste de hip otesis. En un contraste de hip otesis realizamos una armaci on, es decir, formulamos una hip otesis sobre alguna caracter stica de la poblaci on asociada al experimento, y a partir de la informaci on que proporciona una muestra extra da de dicha poblaci on tomamos una de las dos decisiones posibles, aceptar o rechazar esa hip otesis. En un contexto param etrico dicha hip otesis la expresamos normalmente en funci on de la media o la varianza de la variable aleatoria asociada al experimento, mientras que en un contexto no param etrico, se formulan cha variable aleatoria. A la hip otesis que queremos contrastar la denominamos hip otesis nula y la denotamos por H0 . Esta hip otesis la contrastamos frente a otra, a la que denominamos hip otesis alternativa y la denotamos por H1 . En general, la hip otesis alternativa es complementaria a la hip otesis nula.
237
Manuales Uex
La hip otesis nula se asume como cierta antes de aplicar el test de modo que si aceptamos la hip otesis alternativa, es debido a que los datos muestran fuerte discrepancias frente a la hip otesis nula. En cambio, la aceptaci on de H0 indica que la informaci on contenida en la muestra no contiene evidencias sucientes para rechazarla y por tanto seguimos asumi endola como cierta. Notemos que
239
Manuales Uex
Realidad Decisi on Aceptar H0 Aceptar H1 H0 cierta Decisi on correcta Error de Tipo I H1 cierta Error de Tipo II Decisi on correcta
H0 : =7 vs. H1 : 7 Regin de Regin de Regin de rechazo aceptacin rechazo Rechazamos Aceptamos Rechazamos H0 H0 H0 x<7 x7 7 x>7
Figura 9.1: Regla de decisi on para la situaci on descrita en el Ejemplo 9.2. Ejemplo 9.2 Supongamos que el comportamiento probabil stico de las mediciones asociadas al experimento aleatorio descrito en el Ejemplo 9.1 es descrito por un modelo normal. Adem as, a partir de la especicaciones del distanci ometro deducimos que la dispersi on en la mediciones es de 5 mil metros. En esta situaci on, la variable aleatoria X sigue un modelo normal de media desconocida y varianza 2 = 0.000025 m2 . Para contrastar la exactitud del distanci ometro, una de las dos hip otesis, extraemos una muestra aleatoria simple de tama no 4, obteni endose los valores Muestra: 7.001, 7.005, 6.993, 7.004. planteamos la hip otesis H0 : = 7 frente a H1 : = 7. Para poder decidir por
En primer lugar calculamos el valor experimental en funci on de la distancia existente entre la media muestral y el valor nominal. En nuestro caso tenemos metro. Esta distancia nos que x = 7.001 m. y por tanto la distancia es de 1 mil mide la discrepancia entre la muestra y la hip otesis nula. As , si esta distancia es grande rechazamos la hip otesis nula y en caso contrario la aceptamos. En la
Ahora bien, asumiendo la hip otesis nula, tenemos que la variable aleatoria X sigue un modelo normal con = 7 y 2 = 0.000025. As , aplicando lo estudiado en el Tema 7, deducimos que la variable aleatoria 2 X 7 0.005
sigue un modelo normal est andar, siendo X la media muestral de una muestra aleatoria simple de tama no 4 extra da del experimento aleatorio cuando la media de la variable coinciden con el valor nominal. Si el distanci ometro es exacto, es m as probable que la discrepancia normalizada de la muestra se encuentre cercana a cero, como mostramos en el gr aco de la izquierda de la Figura 9.2. Teniendo esto en cuenta, determinamos la regi on de aceptaci on y de rechazo jado el nivel de signicaci on del test, es decir, el error de tipo I dispuesto a tolerar. Si tomamos = 0.05, tenemos que para el 95 % de las muestras aleatorias simples extra das del experimento aleatorio asumiendo la hip otesis nula, su discrepancia normalizada se encuentra en el intervalo denido por los valores -1.96 y 1.96. Por ello, consideramos este intervalo como la regi on de aceptaci on y su complementario la regi on de rechazo, tal y como mostramos en el gr aco de la derecha de la Figura 9.2. En nuestro caso, el valor experimental se encuentra dentro de la regi on de aceptaci on y por tanto deducimos que no encontramos evidencias sucientes muestra en relaci on a la distancia normalizada se ajusta al comportamiento probabil stico de la discrepancia de las muestras cuando el distanci ometro es exacto. Observemos que esto no quiere decir que hemos probado que sea exacto, dado que no hemos controlado el error de tipo II. para decir que el distanci ometro no sea exacto, pues el comportamiento de la
241
Manuales Uex
0.4
0.3
0.3
0.4
0.2
0.1
0.0
0.0 3
0.1
0.2
Figura 9.2: Comportamiento aleatorio de la discrepancia normalizada (gr aco de la izquierda), junto a las regiones de aceptaci on y rechazo con nivel de signicaci on de 0.05 (gr aco de la derecha) para la situaci on descrita en el Ejemplo 9.2. Si suponemos ahora que la distancia de la media muestral al valor nominal es 6 mil metros, entonces el valor experimental es 2.4. El signo nos indica calibrado. Como dichos valores se encuentra en la regi on de rechazo, decidimos si la discrepancia es por exceso (+) o por defecto (), con respecto al valor que el distanci ometro no es exacto. Una vez tomada la decisi on hemos podido cometer o no un error, pero esto no lo sabemos. Sin embargo, cuanticamos la probabilidad de este error de tipo I sabiendo que para el 5 % de las muestras aleatorias simples extra das del experimento aleatorio asumiendo la hip otesis nula, su discrepancia normalizada se encuentra en la regi on de rechazo, y si nuestra muestra es una de esas, cometemos un error. Si el nivel de signicaci on es mayor, la regi on de rechazo aumenta y por tanto el test de hip otesis sigue conduciendo a la decisi on de rechazar la hip otesis nula, en este caso con mayor probabilidad de error. En el gr aco de la izquierda de la Figura 9.3 mostramos la regi on de aceptaci on y rechazo para = 0.1. En cambio, al disminuir el nivel de signicaci on la decisi on del test de hip otesis va a cambiar a partir de un cierto nivel. Como P (Z 2.4) = 0.992, siendo Z un modelo normal est andar (ver Cuadro A.2), tomando = 0.016, tenemos que la regi on de rechazo est a determinada por el valor experimental, tal y como mostramos en
el gr aco de la derecha de la Figura 9.3. Por tanto, para niveles de signicaci on menores que 0.016, aceptamos la hip otesis nula. Obviamente si el nivel de signicaci on es muy peque no, la decisi on es asumir la hip otesis nula, a no ser que presente una fuerte discrepancia con la muestra.
0.4
0.3
0.3
0.4
0.2
0.1
0.1
0.2
zexp
2
0.0
0.0 4
Figura 9.3: Regiones de aceptaci on y rechazo para el nivel de signicaci on de 0.1 (gr aco de la izquierda) y 0.016 (gr aco de la derecha), para la situaci on descrita en el Ejemplo 9.2. El cambio en la decisi on al disminuir el nivel de signicaci on nos lleva a introducir el concepto de p-valor, En general denominamos p-valor asociado a un test de hip otesis al menor nivel de signicaci on para el cual rechazamos la hip otesis nula. De la propia denici on deducimos que el p-valor depende de la muestra. Para la situaci on anterior, en la que la distancia observada es de 6 mil metros, hemos obtenido que el p-valor es 0.016. La magnitud del p-valor nos informa sobre la disconformidad de la muestra con la hip otesis nula, siendo esta mayor cuanto menor sea la magnitud del p-valor. Intuitivamente, la magnitud del p-valor nos indica la probabilidad de obtener, cuando asumimos la hip otesis nula, un valor experimental tan extremo o m as que el obtenido por la muestra. As pues, conocido el nivel de signicaci on deseado y el p-valor, otesis nula si < pv y la hip otesis y pv , respectivamente, aceptamos la hip cativo al nivel de signicaci on de , pues el error en la decisi on es menor que discrepancias con la hip otesis nula. Resumiendo, la aplicaci on de un test de hip otesis consta de los siguiente pasos: jar la hip otesis nula y la hip otesis alternativa, jar el nivel de signicaci on as como las regiones de aceptaci on y rechazo asociadas, calcular el valor experimental as como el p-valor y nalmente, decidir si el resultado obtenido es signicativo o no. alternativa si pv . En dicho caso decimos que el resultado del test es signias el error permisible. Cuanto menor sea pv los datos observados muestran m
243
Manuales Uex
9.2.
A continuaci on desarrollamos un test de hip otesis para comparar la media de una variable aleatoria X con respecto a un valor conocido. Si denotamos por a la media de la variable y por 0 al valor de prueba a comparar, contrastamos la hip otesis nula H0 : = 0 , frente a la hip otesis alternativa H1 : = 0 . Como hemos visto en el Ejemplo 9.2, esta situaci on es apropiada para contrastar la exactitud de un instrumento de medida, donde comparamos el valor de la media de las mediciones de cierta caracter stica con el valor nominal de dicha caracter stica. En la exposici on distinguimos si el valor de la varianza es conocido o desconocido.
9.2.1.
Como la media muestral es una estimaci on puntual de la media, para tomar una decisi on a partir de una muestra aleatoria simple de tama no n, vamos a comparar la distancia existente entre la media muestral y el valor de prueba, con respecto a la distribuci on en el muestreo de dicha distancia para una muestra aleatoria simple extra da de una poblaci on normal con media 0 , seg un indica la hip otesis nula. Si suponemos que la variable aleatoria X sigue un modelo normal de media y varianza 2 , siendo este u ltimo par ametro un valor conocido, la distribuci on en el muestreo de dicha distancia est a asociada X 0 . n Como hemos comentado en el Tema 7, esta variable sigue un modelo normal est andar bajo la hip otesis nula, es decir, cuando = 0 , siendo X la variable aleatoria media muestral. En el gr aco de la izquierda de la Figura 9.4, mos tramos la distribuci on en el muestreo de la distancia, normalizada por / n, existente entre la media muestral y el valor conocido, para muestras aleatorias simples extra das de una poblaci on normal con media 0 y varianza 2 . Por tanto, deducimos que en el intervalo denido por los valores z1/2 y z1/2 se encuentra la distancia normalizada del 100(1 ) % de la muestras extra das a la variable aleatoria
244
Manuales Uex
0.4
0.4
0.3
0.3
z1 regin de rechazo
regin de aceptacin
z1
regin de rechazo
0.2
0.2
0.2
0.3
0.4
zexp p 2 1p
2 1 0 1 2
0.1
0.1
0.1
0.0
0.0
0.0
p 2
3
Figura 9.4: Comportamiento probabil stico de la discrepancia normalizada (gr aco de la izquierda), regiones de aceptaci on y rechazo con nivel de signicaci on (gr aco central) y c alculo del p-valor (gr aco de la derecha) para la hip otesis H0 : = 0 . bajo la hip otesis nula, siendo z1/2 el cuantil de orden 1 /2 del modelo
test de hip otesis al nivel de signicaci on , tal y como mostramos en el gr aco central de la Figura 9.4. Observemos que la regi on de rechazo corresponde a las muestras asociadas con distancias normalizadas grandes, pues son las
normal est andar y (0, 1). Dicho intervalo dene la regi on de aceptaci on del
que mayor discrepancia presentan con respecto a la hip otesis nula, a un siendo extra das de un poblaci on bajo la hip otesis nula. Asimismo, tenemos que al disminuir el nivel de signicaci on, aumenta la regi on de aceptaci on. A partir de la muestra aleatoria simple que disponemos, calculamos el valor experimental zexp = x 0 , n
siendo x la media muestral. Este valor nos indica la distancia normalizada asociada a la muestra aleatoria simple observada. Si |zexp | > z1/2 , entonces decidimos rechazar la hip otesis nula con nivel de signicaci on , pues la distancia normalizada muestra fuerte discrepancia con respecto al comportamiento de la distancia normalizada bajo la hip otesis nula. Con el n de determinar la signicaci on del resultado, calculamos el p-valor como pv = P (|Z | |zexp |), siendo Z un modelo normal est andar.
245
Manuales Uex
0.4
0.3
0.3
0.4
regin de aceptacin
z1 regin de rechazo
0.2
0.1
0.1
0.2
0.0
0.0
1
3 2 1 0 1
2 3
Figura 9.5: Regiones de aceptaci on y rechazo con nivel de signicaci on para aco de la izquierda) y H0 : 0 (gr aco de la la hip otesis H0 : 0 (gr derecha). Dado que la hip otesis alternativa es bilateral, observamos que la regi on de rechazo est a formada por dos zonas, pues rechazamos la hip otesis nula cuando la media muestral discrepa por exceso o por defecto con respecto al valor conocido. Para un test de hip otesis en la que la hip otesis alternativa sea unilateral, la regi on de rechazo est a constituida por una u nica zona y calculamos dicha regi on aplicando un razonamiento an alogo al anterior. Concretamente, para contrastar la hip otesis nula H0 : 0 frente a la hip otesis alternativa de rechazo al conjunto de valores mayores que z1 , como mostramos en el H1 : > 0 al nivel de signicaci on , con (0, 1), tomamos como regi on
gr aco de la izquierda de la Figura 9.5. Asimismo, para contrastar la hip otesis nicaci on , tomamos como regi on de rechazo al conjunto de valores menores que z1 , como mostramos en el gr aco de la derecha de la Figura 9.5. Ejemplo 9.3 Para el test de hip otesis de la media planteado en el Ejemplo 9.2, donde contrastamos la hip otesis nula H0 : = 7 frente a la hip otesis nula H0 : 0 frente a la hip otesis alternativa H1 : < 0 al nivel de sig-
alternativa H1 : = 7, hemos obtenido que una discrepancia de 6 mil metros hip otesis nula. Ahora bien, una vez que decidimos que el distanci ometro no es
entre la media muestral y el valor calibrado es signicativa para rechazar la exacto, es de inter es determinar si es por exceso o por defecto. Si suponemos que x = 7.006 m., que discrepa en 6 mil metros con respecto al valor nominal
A.2), siendo Z un modelo normal est andar, obtenemos que el p-valor es 0.008,
0.4
0.3
0.2
0.2
0.3
0.4
0.1
0.0
0.0 3
0.1
Figura 9.6: C alculo del p-valor para la hip otesis nula H0 : 7 (gr aco de la aco de la derecha). izquierda) y H0 : 7 (gr como mostramos en el gr aco de la izquierda de la Figura 9.6. Por tanto, decidimos que > 0 , siendo un resultado signicativo al nivel de signicaci on de 0.05, es decir, la probabilidad de error al hacer esta armaci on es inferior al 5 %. Adem as, como el p-valor es peque no en relaci on a , los datos muestran fuerte discrepancia. Observemos que hemos planteado como hip otesis nula H0 : 7, pues si planteamos como hip otesis nula H0 : 7, no tenemos razones sucientes para rechazarla, pues el p-valor es 0.992, como mostramos en el gr aco de la izquierda de la Figura 9.6. As pues, planteando la hip otesis nula H0 : 7, tanto s olo asumimos que 7. Una vez decidido que > 7, una estimaci on por intervalo puede ser de utilidad para cuanticar el valor de la media. Como z0.975 = 1.96 (ver Cuadro A.3), tenemos que el intervalo de conanza para la media al nivel de conanza de 0.95 lo calculamos como z0.975 z0.975 ,x + n = (7.001, 7.012). x n Observemos que el valor nominal de la distancia calibrada no est a incluido en el intervalo de conanza. Este hecho es l ogico y consistente con el obtenido mediante el test de hip otesis, pues tenemos una conanza del 95 % que el intervalo contenga al valor de la media.
Notemos que el test de hip otesis bilateral puede ser no signicativo al nivel de signicaci on , mientras que uno de los test de hip otesis unilaterales es signicativo a dicho nivel. As por ejemplo, si x = 7.004 m. tenemos que zexp = 1.6, z0.975 = 1.960 (ver Cuadro A.3) y P (Z 1.6) = 0.945. Por tanto
247
Manuales Uex
9.2.2.
En todo lo anterior, hemos supuesto conocida la varianza de la variable aleatoria X . Sin embargo, es posible aplicar un test de hip otesis para la media, sin necesidad de conocer el valor de la varianza de la variable. En efecto, en el Tema 7 hemos comentado que, bajo la hip otesis nula H0 : = 0 , la variable X 0 , n S sigue un modelo t de Student con n 1 grados de libertad, siendo S la ra z aleatoria
de la izquierda de la Figura 9.7. Observemos que la amplitud de la regi on de aceptaci on cuando no conocemos el valor de la varianza, es en general, mayor que cuando conocemos el valor de la varianza, pues z1/2 t1/2 (n 1). texp = x 0 , n s
siendo s la ra z cuadrada de la cuasivarianza muestral. Este valor se comrechazamos la hip otesis nula H0 : = 0 con un nivel de signicaci on . As , parar a con el cuantil de la t de Student, de modo que, si |texp | > t1/2 ,
calculamos el p-valor, como pv = P (|T | > |texp |) siendo T un modelo t de Student con n 1 grados de libertad. Si la hip otesis alternativa es unilateral, la regi on de aceptaci on es modicada de manera an aloga a lo realizado cuando la varianza es conocida.
0.3
t1
(n 1 )
t1
(n 1 )
0.3
0.2
0.1
0.0
0.0
0.1
0.2
Figura 9.7: Regiones de aceptaci on y rechazo con nivel de signicaci on para la hip otesis H0 : = 0 , cuando la varianza es desconocida. Ejemplo 9.4 Si para la situaci on descrita en el Ejemplo 9.2, donde contrasotesis alternativa H1 : = 7, tamos la hip otesis nula H0 : = 7 frente a la hip ciones del distanci ometro sobre su dispersi on, tenemos que n = 4, x = 7.001 m. y s2 = 0.000029 m2 . Con todo ello, obtenemos el valor experimental siguiente texp = x 0 0.001 = 2 n = 0.252. s 0.000029 s olo utilizamos la informaci on proporcionada por la muestra y no las especica-
Como t0.975 (3) = 3.182 (ver Cuadro A.5), es mayor que el valor experimental, entonces deducimos que la diferencia observada de un mil metro no es signicativa con nivel de signicaci on = 0.05 y decidimos asumir la exactitud del distanci ometro. Notemos que el resultado es consistente con el intervalo de conanza de nivel de conanza de 0.95 obtenido en el Ejemplo 8.5, utilizando la misma muestra, pues el intervalo contiene al valor nominal de la distancia calibrada. En el gr aco de la derecha de la Figura 9.7 mostramos la situaci on del valor experimental con respecto a la regi on de aceptaci on para el nivel de signicaci on = 0.05. Si la variable aleatoria X no sigue un modelo normal, pero el tama no muestral es sucientemente grande, comentamos en el Tema 7 que la distribuci on de la construcci on de la regi on de aceptaci on que vimos en el apartado 9.2.1 sigue siendo v alida. Si la varianza es desconocida, reemplazamos por s, la ra z cuadrada de la cuasivarianza muestral. A efectos pr acticos, la aproximaci on proporciona buenos resultados para n 60.
249
Manuales Uex
construir la regi on de aceptaci on a partir del modelo normal est andar y el valor experimental es zexp =
Como z0.975 = 1.96 (ver Cuadro A.3) es mayor que el valor experimental, entonces deducimos que la diferencia observada no es signicativa al nivel de signicaci on 0.05, y decidimos asumir que la proporci on de estaciones bien calibradas es 0.6. As , el p-valor es mayor que 0.05. En efecto, como P (Z 0.833) = 0.798 (ver Cuadro A.2), siendo Z un modelo normal est andar, tenemos que pv = 0.404. Notemos que el resultado es consistente con el intervalo de conanza para la proporci on al nivel de conanza de 0.95 obtenido en el Ejemplo 8.6, pues el intervalo contiene el valor 0.6. Por otro lado, si plantearechazamos la hip otesis nula con nivel de signicaci on = 0.05. mos la hip otesis nula H0 : p = 0.4 frente a la hip otesis alternativa H1 : p = 0.4,
9.3.
Manuales Uex
Cuando estamos interesados en contrastar la exactitud de un instrumento de medida con las especicaciones dadas por su fabricante, la hip otesis no se centran en la media de la variable aleatoria asociada al experimento, sino en su varianza. Concretamente, si suponemos que la variable aleatoria X sigue un modelo normal de media y varianza 2 , contrastar la hip otesis nula
250
Como la cuasivarianza muestral es una estimaci on puntual de la varianza de la variable, para tomar una decisi on comparamos la magnitud de la cuasivarian2 , a trav es del cociente de ambos. Valores za muestral con el valor conocido 0
grandes o peque nos del cociente muestran discrepancias con la hip otesis nula.
2 Ahora bien, bajo la hip otesis nula, es decir, cuando 2 = 0 , hemos comen-
Pearson con n 1 grados de libertad. Esto nos conduce a tomar como regi on
2 siendo 2 /2 (n 1) el cuantil de orden /2 de un modelo de Pearson con
n 1 grados de libertad y el nivel de signicaci on del test de hip otesis. As , tomando como valor experimental 2 exp = (n 1)s2 , 2 0
otesis nula al nivel de siendo s2 la cuasivarianza muestral, rechazamos la hip mostramos en el gr aco de la izquierda de la Figura 9.8. Teniendo esto en cuenta, el p-valor lo calculamos como
2 pv = 2 min{P (Y < 2 exp ), P (Y > exp )}, 2 2 2 signicaci on , si 2 exp < /2 (n 1) o exp > 1/2 (n 1), tal y como
siendo Y un modelo 2 de Pearson con n 1 grados de libertad. En este caso variable aleatoria X .
Como la hip otesis alternativa es bilateral, la regi on de rechazo est a formada por dos zonas, pues rechazamos la hip otesis nula cuando la magnitud del cociente sea unilateral, la regi on de rechazo est a constituida por una u nica zona y la calculamos aplicando un razonamiento an alogo al anterior. Concretamente,
2 H 1 : 2 > 0 al nivel de signicaci on , con (0, 1), tomamos como regi on 2 para contrastar la hip otesis nula H0 : 2 0 frente a la hip otesis alternativa
251
Manuales Uex
es peque na o grande. Para un test de hip otesis en la que la hip otesis alternativa
regin de rechazo
(n 1 )
1 2 1 2
(n 1 )
1
1(n 1) 1
Figura 9.8: Regiones de aceptaci on y rechazo con nivel de signicaci on para 2 2 (gr aco de la izquierda) H0 : 2 0 (gr aco la hip otesis H0 : 2 = 0 2 2 aco de la derecha). central) y H0 : 0 (gr de rechazo al conjunto de valores mayores que 2 1 (n 1), como mostramos
de signicaci on , tomamos como regi on de rechazo al conjunto de valores menores que 2 aco de la derecha de la (n 1), como mostramos en el gr
Figura 9.8.
Ejemplo 9.6 Supongamos que para el distanci ometro considerado en la situaci on descrita en el Ejemplo 9.2 estamos interesados en contrastar las especicaciones dadas por el fabricante sobre su dispersi on, planteando la hip otesis nula H0 : 2 0.000025 frente a la hip otesis alternativa unilateral H1 : 2 > que n = 4 y s2 = 0.000029. As , obtenemos el valor experimental siguiente 2 exp = (n 1)s2 = 3.48. 2 0 0.000025. A partir de la informaci on proporcionada por la muestra, tenemos
Como 2 0.95 (3) = 7.815 (ver Cuadro A.4) es mayor que el valor experimental, entonces asumimos que la precisi on del distanci ometro es menor o igual a las especicaciones indicadas por el fabricante, con nivel de signicaci on de 0.1.
Manuales Uex
9.4.
En todo lo anterior, las inferencias estad sticas se han basado en la informaci on contenida en una muestra aleatoria simple. En lo que sigue, de modo al desarrollado en estimaci on por intervalo, a continuaci on estudiamos test de
252
bil stico en el muestreo de la media muestral y la cuasivarianza muestral de una muestra aleatoria simple extra da de cada una de las subpoblaciones de tama no muestral nX y nY , respectivamente, lo describen las variables aleatorias,
2 2 X , Y , SX y SY , respectivamente. Finalmente, el valor de la media muestral
En este contexto, en primer lugar contrastamos la igualdad de varianzas plan2 2 = Y frente a la hip otesis alternativa bilateando la hip otesis nula H0 : X 2 2 teral H1 : X = Y . Si suponemos que X e Y describen el comportamiento
probabil stico de las mediciones de una cierta distancia o angulo con dos ins-
trumentos de medida, entonces la hip otesis nula planteada es apropiada para comparar la precisi on en la medici on de cada uno de los instrumentos utilizados. Como la cuasivarianza muestral es una estimaci on puntual de la varianza, para tomar una decisi on comparamos la magnitud de la cuasivarianza muestral de cada una de las muestras, a trav es del cociente de ambas. Valores grandes o peque nos del cociente muestran discrepancias con la hip otesis nula. Ahora
2 2 = Y , hemos comentado en bien, bajo la hip otesis nula, es decir, cuando X 2 2 el Tema 7 que la distribuci on en el muestreo de la variable aleatoria SX /SY
conduce a tomar como regi on de aceptaci on el intervalo denido por los valores
libertad y el nivel de signicaci on del test de hip otesis. As , tomando como Fexp = s2 X , s2 Y
valor experimental
253
Manuales Uex
F/2 (nX 1, nY 1) y F1/2 (nX 1, nY 1), siendo F/2 (nX 1, nY 1) el cuantil de orden /2 del modelo F de Snedecor con nX 1 y nY 1 grados de
(nX 1, nY 1)
regin de aceptacin regin de rechazo regin de regin de aceptacin rechazo
regin de rechazo
F1 2 1
(nX 1, nY 1)
1
F1(nX 1, nY 1) 1
Figura 9.9: Regiones de aceptaci on y rechazo con nivel de signicaci on para 2 2 2 2 = Y (gr aco de la izquierda) H0 : X Y (gr aco la hip otesis H0 : X 2 2 Y (gr aco de la derecha). central) y H0 : X rechazamos la hip otesis nula al nivel de signicaci on , si Fexp < F/2 (nX 1, nY 1) o Fexp > F1/2 (nX 1, nY 1), tal y como mostramos en el gr aco de la izquierda de la Figura 9.9. Teniendo esto en cuenta, calculamos el p-valor como pv = 2 min{P (W < Fexp ), P (W > Fexp )}, siendo W un modelo F de Snedecor con nX 1 y nY 1 grados de libertad. Por convenio, al calcular el valor experimental tomamos en el numerador la cuasivarianza de mayor magnitud, cambiando los papeles de X e Y si fuera preciso. Tambi en en este caso la regi on de aceptaci on es muy sensible a la hip otesis de normalidad de las variables aleatorias X e Y . Siguiendo un razonamiento an alogo al anterior, para contrastar la hip otesis 2 2 2 2 otesis alternativa H1 : X > Y al nivel nula H0 : X Y frente a la hip de signicaci on , tomamos como regi on de rechazo al conjunto de valores aco central de la mayores que F1 (nX 1, nY 1), como mostramos en el gr 2 2 Y frente Figura 9.9. Asimismo, para contrastar la hip otesis nula H0 : X 2 2 on , tomamos a la hip otesis alternativa H1 : X < Y al nivel de signicaci como regi on de rechazo al conjunto de valores menores que F (nX 1, nY 1), como mostramos en el gr aco de la derecha de la Figura 9.9.
Ejemplo 9.7 Retornamos a la situaci on descrita en el Ejemplo 8.8, para contrastar la igualdad en dispersi on de las mediciones de cierto angulo usando de manera independiente dos teodolitos con apreciaci on en segundos. Para ello 2 2 = Y frente a la hip otesis alternativa planteamos la hip otesis nula H0 : X
Muestra X : 35.3428, 35.3426, 35.3423, 35.3426, 35.3424, Muestra Y : 35.3424, 35.3420, 35.3425, 35.3425, 35.3424, donde hemos utilizado notaci on centesimal, tenemos que las cuasivarianzas
2 2 2 muestrales son s2 X = 0.000000031 y sY = 0.000000034. Como sY > sX , enton-
Adem as, como F0.05 (4, 4) = 0.157 y F0.95 (4, 4) = 6.388 (ver Cuadro A.6), decidimos asumir la igualdad de dispersi on al nivel de signicaci on = 0.1. Esta decisi on es consistente con el resultado obtenido mediante estimaci on por intervalos, donde la unidad est a contenida en el intervalo de conanza para el cociente de varianzas al nivel de conanza 0.90.
9.5.
otesis nula planteada es apropiada para conocido. Tomando 0 = 0, la hip contrastar la exactitud entre dos instrumentos de medida. Por otro lado, si otesis nula planteada es apropiada para contrastar la exactitud 0 > 0, la hip en la medida de una caracter stica cuyo valor nominal es 0 . Como la media muestral es una estimaci on puntual de la media, para tomar una decisi on es de su distancia. As , valores grandes de la distancia conocido 0 , a trav muestran discrepancias con la hip otesis nula. A continuaci on exponemos este proceder distingui endose entre muestras aleatorias simples independientes y muestras aleatorias relacionadas. comparamos la magnitud de la diferencia de medias muestrales con el valor
255
Manuales Uex
9.5.1.
Como las variables aleatorias X e Y siguen modelos normales independientes 2 2 y Y , respectivamente, entonces, bajo la de medias X y Y , y varianzas X 7 que la distribuci on en el muestreo de la variable aleatoria X Y 0 2 2 X Y nX + nY hip otesis nula, es decir, cuando X Y = 0 , hemos comentado en el Tema
sigue un modelo normal est andar. Esta variable describe la distribuci on en el muestreo, bajo la hip otesis nula, de la distancia normalizada entre la diferencia de medias muestrales y el valor de prueba 0 . Siguiendo un razonamiento an alogo al realizado cuando hemos planteado una hip otesis alternativa bilateral de la media de una poblaci on, tomamos como regi on de aceptaci on el intervalo denido por los valores z1/2 y z1/2 , siendo z1/2 el cuantil de orden
1 /2 del modelo normal est andar y el nivel de signicaci on del test de hip otesis. As , tomando como valor experimental x y 0 , zexp = 2 2 X Y + nX nY
rechazamos la hip otesis nula al nivel de signicaci on , si |zexp | > z1/2 . Teniendo esto en cuenta, el p-valor lo calculamos como p = P (|Z | > zexp ), siendo Z un modelo normal est andar.
2 Observemos que el valor experimental depende del valor de las varianzas X 2 y Y . De modo an alogo al desarrollado en estimaci on por intervalo, cuando los valores de las varianzas son desconocidos pero supuestamente iguales, calculamos el valor experimental como
Manuales Uex
x y 0 , sXY 1 1 + nX nY
256
libertad y el nivel de signicaci on del test de hip otesis. Por tanto, rechazamos
la hip otesis nula al nivel de signicaci on , si |texp | > t1/2 (nX + nY 2). Teniendo esto en cuenta, el p-valor lo calculamos como pv = P (|T | > texp ),
2 2 las varianzas X y Y son desconocidas, para valorar si las podemos suponer 2 2 = Y . Si el iguales, previamente hemos de contrastar la hip otesis H0 : X
resultado de este test de hip otesis es signicativo, entonces no son aplicables las expresiones del valor experimental y de la regi on de aceptaci on propuestas anteriormente para la diferencia de medias. En esta situaci on, el valor experimental y la regi on de aceptaci on admiten una formulaci on m as compleja. El test resultante es conocido como test de Welch, implicando la distribuci on t de Student, y las medias y cuasivarianzas muestrales. En cualquier caso, observemos que, siguiendo un razonamiento an alogo al anterior, podemos proponer regiones de aceptaci on para las hip otesis alternativas unilaterales H1 : X Y > 0 y H1 : X Y < 0 . Ejemplo 9.8 Continuando con la situaci on descrita en el Ejemplo 9.7, donde hemos asumido que la dispersi on en las mediciones de cada uno de los teodolitos coinciden, contrastamos ahora la exactitud de ambos teodolitos. Para ello, otesis alternativa planteamos la hip otesis nula H0 : X = Y frente a la hip 2 bilateral X = Y . Como 0 = 0, x = 35.3425, y = 35.3424, sX = 0.000000031, s2 Y = 0.000000034 y nX = nY = 5, obtenemos como valor experimental texp = x y 0 = 1.414. sXY
257
Manuales Uex
Dado que t0.95 (8) = 1.860 (ver Cuadro A.5), es mayor que el valor experimental, entonces asumimos la exactitud de los teodolitos al nivel de signicaci on = 0.1. Esta decisi on es consistente con el resultado obtenido en el Ejemplo 8.9, mediante estimaci on por intervalos, donde el cero est a contenido en el intervalo de conanza para la diferencia de medias al nivel de conanza 0.90.
9.5.2.
Los test de hip otesis expuestos para la diferencia de medias son apropiados cuando las variables aleatorias X e Y son independientes. Sin embargo, como ya hemos comentado, existen situaciones pr acticas en las que las variables est an relacionadas y por tanto, estos test de hip otesis no son aplicables. En esta situaci on, para contrastar la hip otesis nula H0 : X Y = 0 frente hacemos uso de la variable aleatoria D = X Y , de manera similar a lo a la hip otesis alternativa H1 : X Y = 0 , siendo 0 un valor conocido,
realizado en estimaci on por intervalo. Como la media de la variable aleatoria D es D = X Y , entonces el problema planteado es equivalente a contrastar la hip otesis nula H0 : D = 0 frente a la hip otesis alternativa bilateral H1 : D = 0 . Si la hip otesis alternativa es unilateral, el razonamiento es an alogo.
De esta manera, el problema de comparar la diferencia de medias cuando las una variable aleatoria con varianza desconocida.
Concretamente, a partir de dos muestras aleatorias relacionadas de tama no n, donde cada elemento de las muestras es una realizaci on del vector (X, Y ), calculamos el valor experimental como texp = d 0 n , sD
z cuadrada de la cuasivarianza, respectivamente, siendo d y sD , la media y la ra de las diferencias entre las coordenadas de los elementos de la muestra aleatoria simple. Ejemplo 9.9 Retornamos a la situaci on descrita en el Ejemplo 8.10, donde un a ngulo horizontal es obtenido como diferencia de dos angulos, y . Como las variables aleatorias X e Y describen las mediciones de los angulos y , respectivamente, entonces X Y representa la medici on media del angulo
proporcionada por el teodolito. Para contrastar si este valor coincide con el valor nominal del a ngulo, sea 36.4350 en notaci on centesimal, planteamos la hip otesis nula H0 : X Y = 36.4350 frente a la hip otesis alternativa bilateral H1 : X Y = 36.4350. A partir de la muestra aleatoria simple de tama no 4
En cambio, para la situaci on descrita en el Ejemplo 9.9 las discrepancias observadas sobre la independencia lineal son signicativas al nivel de signicaci on de 0.05. En efecto, pues n = 4, rP = 0.951 y el valor experimental n2 texp = rP 2 = 4.328 1 rP es mayor que t0.975 (2) = 4.303 (ver Cuadro A.5). Esta dependencia de tipo lineal se maniesta tambi en en la magnitud del coeciente de correlaci on muestral de Spearman, siendo en este caso rS = 0.943, cercano a uno. Observemos que a pesar de mostrar fuerte evidencia de dependencia, el test asociado no acter es signicativo, pues r0.05 (4) = 1, mayor que rS . Esto muestra el car conservador de este test, sobre todo si el tama no muestral es peque no.
9.7.
Las hip otesis planteadas hasta ahora dependen de ciertas caracter sticas de la poblaci on, usualmente la media y la varianza. Sin embargo, en ocasiones, no estamos interesados tanto en contrastar dichas caracter sticas, sino mas bien ello que a continuaci on planteamos hip otesis sobre su distribuci on, distinguiendo entre el caso discreto y el caso continuo. Para casos discretos, la hip otesis nula consiste en especicar la funci on de probabilidad de la variable aleatoria, mientras que en casos continuos la hip otesis nula est a en funci on de alg un
259
Manuales Uex
9.7.1.
Caso discreto
Supongamos en primer lugar que la variable aleatoria X es discreta con espacio muestral nito, {a1 , . . . , am }. Esta situaci on es apropiada para describir el comportamiento aleatorio de una caracter stica cualitativa donde cada categor a est a asociada a un valor num erico. Como la funci on de probabilidad determina la distribuci on de la variable aleatoria, planteamos la hip otesis nula H0 : P (X = a1 ) = p1 , . . . , P (X = am ) = p(0) m frente a que alguna de esas igualdades no es cierta, donde p1 , . . . , pm dene una funci on de probabilidad determinada, es decir, son valores conocidos, no negativos y que suman uno. Para contrastar esta hip otesis, extraemos una muestra aleatoria simple de tama no n asociada a la variable aleatoria X . Para valor ai . Ahora bien, si la hip otesis nula es cierta, al observar n individuos esperamos encontrarnos con npi de ellos asociados al valor ai , es decir, npi 2 (0) es la frecuencia esperada bajo la hip otesis nula. Por tanto, Oi npi nos 2 (0) m Oi npi
i=1 (0) (0) (0) (0) (0)
mide la discrepancia con la hip otesis nula, siendo mayor cuanto mayor sea su magnitud. As , tomamos como valor experimental
2 exp =
npi
(0)
y la regi on de rechazo al conjunto de valores mayores que 2 1 (m 1), siendo grados de libertad y el nivel de signicaci on. Este test es v alido siempre que ninguna de las frecuencias esperadas sea estrictamente menor que 1 y no m as del 20 % de ellas sean menores o iguales que 5.
2 2 1 (m 1) el cuantil de orden 1 de un modelo de Pearson con m 1
2 exp =
Ei
Como las frecuencias esperadas son 40 y 60, las condiciones de validez del test se cumplen y por tanto para tomar una decisi on comparamos el valor experimental con 2 0.95 (1) = 3.841 (ver Cuadro A.4), concluyendo que las diferencias observadas no son signicativas.
9.7.2.
Caso continuo
Si la variable aleatoria X es discreta con espacio muestral innito o continua, el test anterior lo podemos aplicar sin m as que agrupar en un n umero nitos depender de la agrupaci on elegida. Por ello, en estas situaciones es preferible aplicar otro test de hip otesis. Un test habitual es el denominado test de Kolmogorov-Smirnov donde comparamos la funci on de distribuci on del modelo especicado en la hip otesis nula frente a una estimaci on de la funci on de de intervalos el espacio muestral. Observemos que la decisi on del test, puede
261
Manuales Uex
9.7.1.
Caso discreto
Supongamos en primer lugar que la variable aleatoria X es discreta con espacio muestral nito, {a1 , . . . , am }. Esta situaci on es apropiada para describir el comportamiento aleatorio de una caracter stica cualitativa donde cada categor a est a asociada a un valor num erico. Como la funci on de probabilidad determina la distribuci on de la variable aleatoria, planteamos la hip otesis nula H0 : P (X = a1 ) = p1 , . . . , P (X = am ) = p(0) m frente a que alguna de esas igualdades no es cierta, donde p1 , . . . , pm dene una funci on de probabilidad determinada, es decir, son valores conocidos, no negativos y que suman uno. Para contrastar esta hip otesis, extraemos una muestra aleatoria simple de tama no n asociada a la variable aleatoria X . Para valor ai . Ahora bien, si la hip otesis nula es cierta, al observar n individuos esperamos encontrarnos con npi de ellos asociados al valor ai , es decir, npi 2 (0) es la frecuencia esperada bajo la hip otesis nula. Por tanto, Oi npi nos 2 (0) m Oi npi
i=1 (0) (0) (0) (0) (0)
mide la discrepancia con la hip otesis nula, siendo mayor cuanto mayor sea su magnitud. As , tomamos como valor experimental
2 exp =
npi
(0)
y la regi on de rechazo al conjunto de valores mayores que 2 1 (m 1), siendo grados de libertad y el nivel de signicaci on. Este test es v alido siempre que ninguna de las frecuencias esperadas sea estrictamente menor que 1 y no m as del 20 % de ellas sean menores o iguales que 5.
2 2 1 (m 1) el cuantil de orden 1 de un modelo de Pearson con m 1
80
60
40
20
6.985
6.990
6.995
7.000
7.005
7.010
7.015
6.990
6.995
7.000
7.005
7.010
Figura 9.10: Histograma de los datos junto a la funci on de densidad de un modelo normal (gr aco de la izquierda) y qqplot (gr aco de la derecha) para la muestra considerada en el Ejemplo 9.12.
9.8.
Pr acticas de laboratorio
Para obtener inferencias aplicando test de hip otesis a la situaci on considerada en el Ejemplo 9.1, utilizamos las sentencias: Cargar el conjunto de datos x<-c(7.001, 7.005, 6.993, 7.004) Comparar la media con varianza conocida round(mean(x),3); alpha<-0.05; mu0<-7; sigma<-0.005 zexp<-sqrt(length(x))*(mean(x)-mu0)/sigma qnorm(alpha/2); qnorm(1-alpha/2); 2*(1-pnorm(abs(zexp))) qnorm(1-alpha); (1-pnorm(abs(zexp))) Comparar la media con varianza desconocida round(mean(x),3); alpha<-0.05 t.test(x,mu=mu0,conf.level=1-alpha) t.test(x,mu=mu0,alternative="greater",conf.level=1-alpha) qt(1-alpha,length(x)-1) t.test(x,mu=mu0,alternative="less",conf.level=1-alpha) qt(alpha,length(x)-1) qt(alpha/2,length(x)-1); qt(1-alpha/2,length(x)-1)
263
Manuales Uex
una recta no son signicativas, como indica el test de Shapiro-Wilks, pues el p-valor es 0.5625, mayor que 0.05. Por tanto, no tenemos razones sucientes para rechazar que los datos son extra dos de una poblaci on normal. Aplicando el test de Kolmogorov-Smirnov obtenemos la misma conclusi on.
265
Manuales Uex
mean(x); mean(y); alpha<-0.01; delta0<-36.4350 t.test(x,y,mu=delta0,pair=T,conf.level=1-alpha) qt(alpha/2,length(x)-1); qt(1-alpha/2,length(x)-1) t.test(d,mu=delta0,conf.level=1-alpha) Contrastar la independencia cor(x,y); alpha<-0.05 texp<-cor(x,y)*sqrt(length(x)/(1-cor(x,y)^2)) qt(alpha/2,length(x)-2); qt(1-alpha/2,length(x)-2) cor(rank(x),rank(y)); library(SuppDists) qSpearman(alpha/2,length(x)); qSpearman(1-alpha/2,length(x))
9.9.
Cuestiones y problemas
1. Razonar si las siguientes proposiciones son verdaderas o falsas: i) En el test de hip otesis para la media de un modelo normal con varianza conocida, si el tama no muestral aumenta y la media muestral permanece constante, el p-valor disminuye. ii) Si 0.10 es el p-valor del test de hip otesis para contrastar la hip otesis hip otesis para contrastar la hip otesis H0 : 0 frente a H1 : > 0 . H0 : = 0 frente a H1 : = 0 , entonces 0.05 es el p-valor del test de
iii) Si el resultado de un test de hip otesis es signicativo al nivel de signicaci on 0.05, entonces podemos asegurar con una conanza del 95 % que la hip otesis alternativa es correcta. iv) En el test de hip otesis de la media de un modelo normal con varianza conocida, si la varianza aumenta el p-valor tambi en aumenta.
Manuales Uex
v) Si el resultado un test de hip otesis bilateral es signicativo al nivel de signicaci on de 0.05, entonces el resultado de uno de los dos test de hip otesis unilaterales asociados es signicativo al nivel de signicaci on 0.05.
266
267
Manuales Uex
268
Manuales Uex
269
Manuales Uex
damos algunos textos espec cos de otras disciplinas pero que pueden ser u ltil para entender los contenidos expuestos. Entre ellos destacamos Garc a (2004), donde se proponen una gran bater a de cuestiones y problemas, y Mart n & Luna del Castillo (1990), un texto cl asico en Bioestad stica.
270
Manuales Uex
Ap endice A
271
Manuales Uex
Manuales Uex
0.902 0.998 1.000 0.857 0.993 1.000 1.000 0.815 0.986 1.000 1.000 1.000 0.774 0.977 0.999 1.000 1.000 1.000 0.735 0.967 0.998 1.000 1.000 1.000 1.000 0.698 0.956 0.996 1.000 1.000 1.000 1.000 1.000 0.663 0.943 0.994 1.000 1.000 1.000 1.000 1.000 1.000
0.810 0.990 1.000 0.729 0.972 0.999 1.000 0.656 0.948 0.996 1.000 1.000 0.590 0.919 0.991 1.000 1.000 1.000 0.531 0.886 0.984 0.999 1.000 1.000 1.000 0.478 0.850 0.974 0.997 1.000 1.000 1.000 1.000 0.430 0.813 0.962 0.995 1.000 1.000 1.000 1.000 1.000
0.722 0.978 1.000 0.614 0.939 0.997 1.000 0.522 0.890 0.988 0.999 1.000 0.444 0.835 0.973 0.998 1.000 1.000 0.377 0.776 0.953 0.994 1.000 1.000 1.000 0.321 0.717 0.926 0.988 0.999 1.000 1.000 1.000 0.272 0.657 0.895 0.979 0.997 1.000 1.000 1.000 1.000
0.640 0.960 1.000 0.512 0.896 0.992 1.000 0.410 0.819 0.973 0.998 1.000 0.328 0.737 0.942 0.993 1.000 1.000 0.262 0.655 0.901 0.983 0.998 1.000 1.000 0.210 0.577 0.852 0.967 0.995 1.000 1.000 1.000 0.168 0.503 0.797 0.944 0.990 0.999 1.000 1.000 1.000
0.563 0.938 1.000 0.422 0.844 0.984 1.000 0.316 0.738 0.949 0.996 1.000 0.237 0.633 0.896 0.984 0.999 1.000 0.178 0.534 0.831 0.962 0.995 1.000 1.000 0.133 0.445 0.756 0.929 0.987 0.999 1.000 1.000 0.100 0.367 0.679 0.886 0.973 0.996 1.000 1.000 1.000
0.490 0.910 1.000 0.343 0.784 0.973 1.000 0.240 0.652 0.916 0.992 1.000 0.168 0.528 0.837 0.969 0.998 1.000 0.118 0.420 0.744 0.930 0.989 0.999 1.000 0.082 0.329 0.647 0.874 0.971 0.996 1.000 1.000 0.058 0.255 0.552 0.806 0.942 0.989 0.999 1.000 1.000
0.422 0.877 1.000 0.275 0.718 0.957 1.000 0.179 0.563 0.874 0.985 1.000 0.116 0.428 0.765 0.946 0.995 1.000 0.075 0.319 0.647 0.883 0.978 0.998 1.000 0.049 0.234 0.532 0.800 0.944 0.991 0.999 1.000 0.032 0.169 0.428 0.706 0.894 0.975 0.996 1.000 1.000
0.360 0.840 1.000 0.216 0.648 0.936 1.000 0.130 0.475 0.821 0.974 1.000 0.078 0.337 0.683 0.913 0.990 1.000 0.047 0.233 0.544 0.821 0.959 0.996 1.000 0.028 0.159 0.420 0.710 0.904 0.981 0.998 1.000 0.017 0.106 0.315 0.594 0.826 0.950 0.991 0.999 1.000
0.302 0.797 1.000 0.166 0.575 0.909 1.000 0.092 0.391 0.759 0.959 1.000 0.050 0.256 0.593 0.869 0.982 1.000 0.028 0.164 0.442 0.745 0.931 0.992 1.000 0.015 0.102 0.316 0.608 0.847 0.964 0.996 1.000 0.008 0.063 0.220 0.477 0.740 0.912 0.982 0.998 1.000
0.250 0.750 1.000 0.125 0.500 0.875 1.000 0.062 0.313 0.687 0.938 1.000 0.031 0.187 0.500 0.812 0.969 1.000 0.016 0.109 0.344 0.656 0.891 0.984 1.000 0.008 0.063 0.227 0.500 0.773 0.938 0.992 1.000 0.004 0.035 0.145 0.363 0.637 0.855 0.965 0.996 1.000
(*) Por ejemplo, dado n = 6, x = 1, p = 0.25, tenemos que P (X 1) = 0.534, siendo X un modelo binomial B (6, 0.25).
272
F(z)
0.000
0.010
0.020
0.030
0.040
0.050
0.060
0.070
0.080
0.090
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
0.500 0.540 0.579 0.618 0.655 0.691 0.726 0.758 0.788 0.816 0.841 0.864 0.885 0.903 0.919 0.933 0.945 0.955 0.964 0.971 0.977 0.982 0.986 0.989 0.992 0.994 0.995 0.997 0.997 0.998
0.504 0.544 0.583 0.622 0.659 0.695 0.729 0.761 0.791 0.819 0.844 0.867 0.887 0.905 0.921 0.934 0.946 0.956 0.965 0.972 0.978 0.983 0.986 0.990 0.992 0.994 0.995 0.997 0.998 0.998
0.508 0.548 0.587 0.626 0.663 0.698 0.732 0.764 0.794 0.821 0.846 0.869 0.889 0.907 0.922 0.936 0.947 0.957 0.966 0.973 0.978 0.983 0.987 0.990 0.992 0.994 0.996 0.997 0.998 0.998
0.512 0.552 0.591 0.629 0.666 0.702 0.736 0.767 0.797 0.824 0.848 0.871 0.891 0.908 0.924 0.937 0.948 0.958 0.966 0.973 0.979 0.983 0.987 0.990 0.992 0.994 0.996 0.997 0.998 0.998
0.516 0.556 0.595 0.633 0.670 0.705 0.739 0.770 0.800 0.826 0.851 0.873 0.893 0.910 0.925 0.938 0.949 0.959 0.967 0.974 0.979 0.984 0.987 0.990 0.993 0.994 0.996 0.997 0.998 0.998
0.520 0.560 0.599 0.637 0.674 0.709 0.742 0.773 0.802 0.829 0.853 0.875 0.894 0.911 0.926 0.939 0.951 0.960 0.968 0.974 0.980 0.984 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.998
0.524 0.564 0.603 0.641 0.677 0.712 0.745 0.776 0.805 0.831 0.855 0.877 0.896 0.913 0.928 0.941 0.952 0.961 0.969 0.975 0.980 0.985 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.998
0.528 0.567 0.606 0.644 0.681 0.716 0.749 0.779 0.808 0.834 0.858 0.879 0.898 0.915 0.929 0.942 0.953 0.962 0.969 0.976 0.981 0.985 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.999
0.532 0.571 0.610 0.648 0.684 0.719 0.752 0.782 0.811 0.836 0.860 0.881 0.900 0.916 0.931 0.943 0.954 0.962 0.970 0.976 0.981 0.985 0.989 0.991 0.993 0.995 0.996 0.997 0.998 0.999
0.536 0.575 0.614 0.652 0.688 0.722 0.755 0.785 0.813 0.839 0.862 0.883 0.901 0.918 0.932 0.944 0.954 0.963 0.971 0.977 0.982 0.986 0.989 0.992 0.994 0.995 0.996 0.997 0.998 0.999
(*) Por ejemplo, dado z = 2.00, tenemos que P (Z 2.00) = 0.977, siendo Z un modelo normal est andar.
273
Manuales Uex
zp
0.000
0.001
0.002
0.003
0.004
0.005
0.006
0.007
0.008
0.009
0.50 0.60 0.70 0.80 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99
0.000 0.253 0.524 0.842 0.878 0.915 0.954 0.994 1.036 1.080 1.126 1.175 1.227 1.282 1.341 1.405 1.476 1.555 1.645 1.751 1.881 2.054 2.326
0.003 0.256 0.527 0.845 0.882 0.919 0.958 0.999 1.041 1.085 1.131 1.180 1.232 1.287 1.347 1.412 1.483 1.563 1.655 1.762 1.896 2.075 2.366
0.005 0.259 0.530 0.849 0.885 0.923 0.962 1.003 1.045 1.089 1.136 1.185 1.237 1.293 1.353 1.419 1.491 1.572 1.665 1.774 1.911 2.097 2.409
0.008 0.261 0.533 0.852 0.889 0.927 0.966 1.007 1.049 1.094 1.141 1.190 1.243 1.299 1.359 1.426 1.499 1.580 1.675 1.787 1.927 2.120 2.457
0.010 0.264 0.536 0.856 0.893 0.931 0.970 1.011 1.054 1.098 1.146 1.195 1.248 1.305 1.366 1.433 1.506 1.589 1.685 1.799 1.943 2.144 2.512
0.013 0.266 0.539 0.860 0.896 0.935 0.974 1.015 1.058 1.103 1.150 1.200 1.254 1.311 1.372 1.440 1.514 1.598 1.695 1.812 1.960 2.170 2.576
0.015 0.269 0.542 0.863 0.900 0.938 0.978 1.019 1.063 1.108 1.155 1.206 1.259 1.317 1.379 1.447 1.522 1.607 1.706 1.825 1.977 2.197 2.652
0.018 0.272 0.545 0.867 0.904 0.942 0.982 1.024 1.067 1.112 1.160 1.211 1.265 1.323 1.385 1.454 1.530 1.616 1.717 1.838 1.995 2.226 2.748
0.020 0.274 0.548 0.871 0.908 0.946 0.986 1.028 1.071 1.117 1.165 1.216 1.270 1.329 1.392 1.461 1.538 1.626 1.728 1.852 2.014 2.257 2.878
0.023 0.277 0.550 0.874 0.912 0.950 0.990 1.032 1.076 1.122 1.170 1.221 1.276 1.335 1.398 1.468 1.546 1.635 1.739 1.866 2.034 2.290 3.090
(*) Por ejemplo, dado p = 0.975, tenemos que P (Z 1.960) = 0.975, siendo Z un modelo normal est andar.
274
Manuales Uex
2 p
n|p 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 50 60 70 80 90 100
0.005
0.025
0.05
0.25
0.5
0.75
0.95
0.975
0.995
0.000 0.010 0.072 0.207 0.412 0.676 0.989 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 13.787 20.707 27.991 35.534 43.275 51.172 59.196 67.328
0.001 0.051 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 16.791 24.433 32.357 40.482 48.758 57.153 65.647 74.222
0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 18.493 26.509 34.764 43.188 51.739 60.391 69.126 77.929
0.102 0.575 1.213 1.923 2.675 3.455 4.255 5.071 5.899 6.737 7.584 8.438 9.299 10.165 11.037 11.912 12.792 13.675 14.562 15.452 24.478 33.660 42.942 52.294 61.698 71.145 80.625 90.133
0.455 1.386 2.366 3.357 4.351 5.348 6.346 7.344 8.343 9.342 10.341 11.340 12.340 13.339 14.339 15.338 16.338 17.338 18.338 19.337 29.336 39.335 49.335 59.335 69.334 79.334 89.334 99.334
1.323 2.773 4.108 5.385 6.626 7.841 9.037 10.219 11.389 12.549 13.701 14.845 15.984 17.117 18.245 19.369 20.489 21.605 22.718 23.828 34.800 45.616 56.334 66.981 77.577 88.130 98.650 109.141
3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 43.773 55.758 67.505 79.082 90.531 101.879 113.145 124.342
5.024 7.378 9.348 11.143 12.833* 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 46.979 59.342 71.420 83.298 95.023 106.629 118.136 129.561
7.879 10.597 12.838 14.860 16.750 18.548 20.278 21.955 23.589 25.188 26.757 28.300 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997 53.672 66.766 79.490 91.952 104.215 116.321 128.299 140.169
275
Manuales Uex
(*) Por ejemplo, dado n = 5 y p = 0.975, tenemos que P (X 12.833) = 0.975, siendo X un modelo 2 de Pearson con 5 grados de libertad.
tp (n )
n|p 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0.6
0.7
0.8
0.9
0.95
0.975
0.995
0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257 0.257 0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256
0.727 0.617 0.584 0.569 0.559 0.553 0.549 0.546 0.543 0.542 0.540 0.539 0.538 0.537 0.536 0.535 0.534 0.534 0.533 0.533 0.532 0.532 0.532 0.531 0.531 0.531 0.531 0.530 0.530 0.530
1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854
3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310
6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697
12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042
63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750
(*) Por ejemplo, dado n = 2 y p = 0.975, tenemos que P (X 4.303) = 0.975, siendo X un modelo t de Student con 2 grados de libertad.
Fp(n, m)
(*) Por ejemplo, dado n = 8, m = 6 y p = 0.975, tenemos que P (X 5.600) = 0.975, siendo X un modelo F de Snedecor con 8 y 6 grados de libertad.
277
Manuales Uex
0.800 0.800 0.829 0.732 0.667 0.617 0.576 0.536 0.507 0.484 0.464 0.446 0.431 0.417 0.404 0.391 0.380 0.371 0.362 0.353 0.345 0.338 0.331 0.324
1.000 1.000 1.000 0.929 0.881 0.833 0.782 0.755 0.720 0.692 0.670 0.645 0.626 0.610 0.593 0.579 0.564 0.551 0.539 0.528 0.516 0.506 0.497 0.488
1.000 1.000 1.000 1.000 0.976 0.933 0.891 0.864 0.839 0.813 0.789 0.768 0.747 0.730 0.713 0.696 0.681 0.668 0.654 0.642 0.630 0.619 0.609 0.598
0.318 0.312 0.307 0.301 0.297 0.292 0.287 0.283 0.279 0.275 0.271 0.268 0.264 0.261 0.258 0.254 0.251 0.248 0.246 0.243 0.240 0.238 0.235 0.233
0.375 0.368 0.362 0.356 0.350 0.345 0.339 0.334 0.329 0.325 0.320 0.316 0.312 0.308 0.305 0.301 0.298 0.294 0.291 0.288 0.285 0.282 0.279 0.276
0.479 0.471 0.464 0.456 0.449 0.443 0.436 0.430 0.424 0.419 0.413 0.408 0.403 0.398 0.393 0.389 0.385 0.380 0.376 0.372 0.369 0.365 0.361 0.358
0.589 0.580 0.571 0.563 0.555 0.547 0.540 0.533 0.526 0.519 0.513 0.507 0.501 0.495 0.490 0.485 0.479 0.474 0.470 0.465 0.460 0.456 0.452 0.447
278
Manuales Uex
Ap endice B
Variaciones y combinaciones
El c alculo de probabilidades a trav es de la regla de Laplace se basa en el conocimiento del n umero de casos favorables y el n umero de casos posibles. Esto implica un proceso de conteo que puede simplicarse mediante el empleo del c alculo combinatorio. El objetivo del c alculo combinatorio es determinar cu antos subconjuntos se pueden formar con los elementos de un conjunto dado, distingui endose entre c alculo combinatorio con repetici on y c alculo combinatorio sin repetici on, seg un se permita o no que los elementos se repitan. Por otro lado, surgen las variaciones o combinaciones seg un importe o no el orden de los elementos que forman los subconjuntos. Por tanto, en el c alculo combinatorio distinguimos entre variaciones sin repetici on, variaciones con repetici on, combinaciones sin repetici on y combinaciones con repetici on. Para ilustrar las diferentes situaciones, en lo que sigue, suponemos que en el almac en del Centro Universitario de M erida disponemos de 5 estaciones totales para la realizaci on de las pr acticas de campo de cierta asignatura. Si las estaciones totales las enumeramos por ET 1, ET 2, ET 3, ET 4, ET 5, el conjunto existen dos grupos de pr acticas y que cada uno de ellos elige una estaci on total para la realizaci on de las pr acticas. Un posible resultado de la elecci on es cuando el grupo uno escoge ET 3 y el grupo dos ET 1. Esta asignaci on, desde el punto de vista de los grupos, es distinta a la que sucede cuando el
279
Manuales Uex
280
Manuales Uex
281
Manuales Uex
Ap endice C
Cifras signicativas
En lo que sigue introducimos el concepto de cifras signicativas, u til para representar un n umero real en un computador. Es sabido que cualquier n umero real a lo podemos representar en forma decimal de manera u nica con un n umero nito o innito de cifras, sean {0, 1, . . . , 9}, mediante la expresi on a=
j 10j ,
j =m
donde j {0, 1, . . . , 9}, m = 0 y m es un n umero entero. Teniendo en cuenta esta descomposici on, diremos que una cifra j del n umero real a es signicativa si es no nula o si es nula verica que o bien j 0 o bien existe otro d gito k cifras signicativas de algunos n umeros reales. Observemos que el n umero de cifras signicativas de un n umero real puede ser nito o innito. Ahora bien, como la memoria de un computador o calculadora es limitada, a cada n umero real s olo le asociamos un n umero nito de cifras, digamos n, usando para ello notaci on cient ca. As , el n umero real con un n umero menor o igual de cifras signicativas que n no sufre variaci on. En entonces un proceso de redondeo es requerido. Una regla usual es la siguiente. Si mn es menor de 5 entonces nos quedamos con las primeras n cifras signiel n umero es representado por las cifras m , . . . , mn+1 + 1. Finalmente, si cativas del n umero, es decir, m , . . . , mn+1 . Si mn es mayor de 5 entonces
283
Manuales Uex
N umero real
2 3 7 8 8 9
23 200 2350002 102 4567838 103 4567838 103 5644286 105 3141593 101
Cuadro C.1: N umero de cifras signicativas. umero de cifras signicativas del n umero es mayor de n + 1, mn es 5 y el n entonces lo representamos como m , . . . , mn+1 + 1. Cuando mn es 5 y el n umero de cifras signicativas del n umero es n + 1, entonces es representado por m , . . . , mn+1 si mn+1 es par y por m , . . . , mn+1 + 1 si mn+1 es
impar. En el Cuadro C.1 mostramos la notaci on cient ca con 7 cifras signicativas para algunos n umeros reales. Notemos que usualmente los computadores utilizan 7 cifras signicativas, aunque se puede ampliar. En el caso del software estad stico R utilizamos para ello el comando options(digits=n). Adem as, en los resultados intermedios que intervienen en cualquier c alculo se utiliza un n umero doble de cifras signicativas.
Notemos que despu es de aplicar el proceso de redondeo, el n umero representado mn+1 . En general decimos que una y el n umero original no dista m as de 0.510 aproximaci on al n umero a tiene n cifras signicativas exactas si la distancia entre ambos valores no dista m as de 0.5 10mn+1 . Observando el proceso de redondeo, deducimos que esto no signica que la aproximaci on tiene todas sus cifras signicativas iguales.
284
Manuales Uex
285
Manuales Uex
de la media, 190
Manuales Uex
286
de dispersi on, 20, 2732, 96, 100 regla de Bayes, 77 102 de forma, 20, 3334, 96, 103104 de posici on, 20, 2426, 96, 99 moda, 12 modelo, v ease distribuci on de probabilidad, 137 continuo, 148167 discreto, 138147 multidimensional, 167173 muestra, 5, 186 aleatoria relacionada, 203 aleatoria simple, 186 independiente, 187 nivel de signicaci on, 239 observaci on directa, 1 indirecta, 3 p-valor, 243 percentil, v ease cuantil pias, 2
resultado signicativo, 243 suceso, 69 elemental, 69 imposible, 70 independiente, 76 intersecci on, 70 uni on, 70 tabla de contingencia, 44 de frecuencias, 12 teor a de errores aleatorios, 3 de la probabilidad, 5 de muestras, 185 teorema central del l mite, 157 de la probabilidad total, 75 test de hip otesis, 214, 237244
287
Manuales Uex
teor a de muestras, 5
288
Manuales Uex
x1 , . . . , xn
n i=1
xi
x s2 s rP rS AB AB AB Ac
xi /n n
i=1 (xi
x)2 /(n 1) s2
coeciente de correlaci on muestral de Pearson coeciente de correlaci on muestral de Spearman suceso uni on de los sucesos A y B suceso intersecci on de los sucesos A y B suceso imposible
289
Manuales Uex
Manuales Uex
2 p (n) t(n)
290
291
Manuales Uex
Referencias
Ardanuy, R. & Mart n, Q. (1999). Estad stica para ingenieros. Segunda edici on. Hep erides. Canavos, G. C. (1993). Probabilidad y estad stica. Aplicaciones y m etodos. McGraw-Hill. ez, J., & Berne , J. L. (1996). Teor Chueca, M., Herra a de errores e instrumentaci on. Paraninfo. Crawley, M. J. (2005). Statistics: An introduction using R. Wiley. Cuadras, C. (1982). Problemas de Probabilidad y Estad stica. PPU. Garc a, A. (2004). Bioestad stica b asica. @becedario. Harvey, B. R. (2006). Practical least squares and statistics for surveyors. Third edition. School of Surveying and Spatial Information Systems. Mart n, A. & Luna del Castillo, J. D. (1990). Bioestad stica para las ciencias de la salud. Ediciones Norma. Mart n, F. (1990). Geodesia y Cartograf a matem atica. Paraninfo. Mart n, F. J. & Ruiz-Maya, L. (1997a). Estad stica I: Probabilidad. AC. Mart n, F. J. & Ruiz-Maya, L. (1997b). Estad stica II: Inferencia. AC. Mikhail, E. M. & Ackermann, F. (1976). Observations and least squares. IEP-A Dun-Donnelley Publisher. Mikhail, E. M., Bethel, J. S., & McGlone, J. C. (2001). Introduction to modern photogrammetry. John Wiley & Sons. Mikhail, E. M. & Gracie, G. (1981). Analysis and adjustment of survey Milton, J. S. & Arnold, J. C. (2004). Probabilidad y Estad stica con aplicaciones para ingenier a y ciencias computacionales. McGraw-Hill. Montgomery, D. C. & Runger, G. C. (1996). Probabilidad y Estad stica aplicadas a la ingenier a. McGraw-Hill.
293
Manuales Uex
294
Manuales Uex