Vous êtes sur la page 1sur 23

Inferencia Estadstica

Introduccin al muestreo. Algunas veces es posible y prctico examinar a cada persona o elemento de la poblacin que deseamos describir. A esto lo llamamos enumeracin completa o censo. Utilizamos el muestreo cuando no es posible contar o medir todos los elementos de la poblacin. Los estadsticos usan la palabra poblacin para referirse no slo a personas sino a todos los elementos que han sido elegidos para un estudio, y emplean la palabra muestra para describir una porcin elegida de la poblacin. Condiciones que debe reunir una muestra: Homogeneidad: debe ser extrada de la misma poblacin. Independencia: las observaciones no deben estar mutuamente condicionadas entre s. Representatividad: la muestra debe ser el mejor reflejo posible del conjunto del cual proviene. Estadsticas y parmetros. Matemticamente, podemos describir muestras y poblaciones al emplear mediciones como la media, la mediana, la oda y la desviacin estndar. Cuando estos trminos describen las caractersticas de una poblacin, se llaman parmetros. Cuando describen las caractersticas de la muestra, se llaman estadsticos. Una estadstica es una caracterstica de una muestra y un parmetro es una caracterstica de la poblacin. Se emplean letras latinas minsculas para denotar estadsticas de muestra y letras griegas o latinas maysculas para representar parmetros de poblacin. Poblacin Definicin Coleccin de elementos considerados Muestra Parte o porcin de la poblacin seleccionada para su estudio Estadsticas Tamao de la muestra: n Media de la muestra: x Desviacin estndar: s

Caractersticas Parmetros Tamao de la poblacin: N Smbolos Media de la poblacin: Desviacin estndar: Parmetros y estimadores.

Una poblacin queda caracterizada a travs de ciertos valores denominados parmetros, que describen las principales propiedades del conjunto. Un parmetro es un valor fijo (no aleatorio) que caracteriza a una poblacin en particular. En general, una parmetro es una cantidad desconocida y rara vez se puede determinar exactamente su valor, por la dificultad prctica de observar todas las unidades de una poblacin. Por este motivo, tratamos de estimar el valor de los parmetros desconocidos a travs del empleo de muestras. Las cantidades usadas para describir una muestra se denominan estimadores o estadsticos muestrales. Ahora bien, es razonable pensar que si tomamos diferentes muestras de la misma poblacin y calculamos los diferentes estadsticos de cada una, esos valores van a diferir de muestra a muestra. Por lo tanto, un estadstico no es un valor fijo, sino que presenta las siguientes caractersticas: Puede tener varios resultados posibles. No se puede predecir de antemano su valor. Estas son las condiciones que definen a una variable aleatoria. Un estadstico, entonces, es una variable aleatoria, funcin de las observaciones muestrales. A los estadsticos muestrales se los designa con las letras latinas (x, s2), o letras griegas "con sombrero" ( ^, ^2). Si un estadstico es una variable aleatoria, entonces es posible determinar su distribucin de probabilidades y calcular sus principales propiedades. Muestreo aleatorio. Muestreo aleatorio simple. Selecciona muestras mediante mtodos que permiten que cada posible muestra tenga igual probabilidad de ser seleccionada y que cada elemento de la poblacin total tenga una oportunidad igual de ser incluido en la muestra. Una poblacin infinita es aquella en la que es tericamente imposible observar todos los elementos. Aunque muchas poblaciones parecen ser excesivamente grandes, no existe una poblacin realmente infinita de objetos fsicos. Con recursos y tiempo ilimitados, podramos enumerar cualquier poblacin finita. Como cuestin prctica, entonces, utilizamos el trmino poblacin infinita cuando hablamos acerca de una poblacin que no podra enumerarse en un intervalo razonable. Cmo hacer un muestreo aleatorio. La forma ms fcil de seleccionar una muestra de manera aleatoria es mediante el uso de nmeros aleatorios. Estos nmeros pueden generarse ya sea con una computadora

programada para resolver nmeros o mediante una tabla de nmeros aleatorios (tabla de dgitos aleatorios). Muestreo sistemtico. En el muestreo sistemtico, los elementos son seleccionados de la poblacin dentro de un intervalo uniforme que se mide con respecto al tiempo, al orden o al espacio. El muestreo sistemtico difiere del aleatorio simple en que cada elemento tiene igual probabilidad de ser seleccionado, pero cada muestra no tiene una posibilidad igual de ser seleccionada (Por ejemplo: tomar cada elemento de 10 en 10: el N 1, 11, 21...) En este tipo de muestreo, existe el problema de introducir un error en el proceso de muestreo. An cuando este tipo de muestreo puede ser inapropiado cuando los elementos entran en un patrn secuencial, este mtodo puede requerir menos tiempo y algunas veces tiene como resultado un costo menor que el mtodo aleatorio simple. Muestreo estratificado. Dividimos la poblacin en grupos relativamente homogneos, llamados estratos. Despus, se utiliza uno de estos planteamientos: Seleccionamos aleatoriamente de cada estrato un nmero especfico de elementos correspondientes a la fraccin de ese estrato en la poblacin como un todo. Extraemos un nmero igual de elementos de cada estrato y damos peso a los resultados de acuerdo con la porcin del estrato con respecto a la poblacin total. Con cualquiera de estos planteamientos, el muestreo estratificado garantiza que cada elemento de la poblacin tenga posibilidad de ser seleccionado. Este mtodo resulta apropiado cuando la poblacin ya est dividida en grupos de diferentes tamaos y deseamos tomar en cuenta este hecho (por ejemplo: categoras profesionales de la poblacin). La ventaja de las muestras estratificadas es que, cuando se disean adecuadamente, reflejan de manera ms precisa las caractersticas de la poblacin de la cual fueron elegidas. Muestreo de racimo. Dividimos la poblacin en grupos, o racimos, y luego seleccionamos una muestra aleatoria de estos racimos. Suponemos que estos racimos individualmente son representativos de la poblacin como un todo (Por ejemplo: las cuadras o barrios de un pueblo). Un procedimiento de racimo bien diseado puede producir una muestra ms precisa a un costo considerablemente menor que el de un muestreo aleatorio simple.

Tanto en el muestreo estratificado como en el de racimo, la poblacin se divide en grupos bien definidos. Usamos el muestreo estratificado cuando cada grupo tiene una pequea variacin dentro de s mismo, pero hay una amplia variacin dentro de los grupos. Usamos el muestreo de racimo en el caso opuesto, cuando hay una variacin considerable dentro de cada grupo, pero los grupos son esencialmente similares entre s. Base de la inferencia estadstica: muestreo aleatorio simple. El muestreo sistemtico, estratificado y el de racimo intentan aproximarse al muestreo aleatorio simple. Todos son mtodos que han sido desarrollados por su precisin, economa o facilidad fsica. Los principios del muestreo aleatorio simple son la base de la inferencia estadstica, el proceso de hacer inferencias acerca de poblaciones a partir de informacin contenida en muestras. SUGERENCIAS: El uso de muestras en un estudio estadstico permite ahorrar mucho esfuerzo y dinero, y generalmente proporciona informacin muy precisa sobre las principales propiedades de la poblacin. Para seleccionar una muestra, usar tcnicas que permitan garantizar que se cumplan las propiedades de homogeneidad, independencia y representatividad. La tcnica de muestreo utilizada depende de los objetivos del estudio, de las caractersticas de la poblacin y de las disponibilidades de materiales. Cada dato cuesta dinero, as que para elegir el tamao de la muestra hay que compatibilizar la precisin requerida con la variabilidad de los datos y los recursos disponibles. Introduccin a las distribuciones de muestreo. Si tomamos varias muestras de una poblacin, las estadsticas que calcularamos para cada muestra no necesariamente seran iguales, y lo ms probable es que variaran de una muestra a otra. Una distribucin de probabilidad de todas las medias posibles de las muestras es una distribucin de las medias de las muestras. Los estadsticos la conocen como distribucin de muestreo de la media. Tambin podramos tener una distribucin de muestreo de una porcin. Si trazamos una distribucin de probabilidad de porciones posibles de un evento en todas las muestras, obtendramos una distribucin de las porciones de las muestras. A esto se lo conoce como distribucin de la porcin. Descripcin de las distribuciones de muestreo.

Cualquier distribucin de probabilidad (y, por tanto, cualquier distribucin de muestreo) puede ser descripta parcialmente por su media y su desviacin estndar. Concepto de error estndar. En vez de decir "la desviacin estndar de la distribucin de las medias de la muestra" para describir una distribucin de medias de la muestra, los estadsticos se refieren al error estndar de la media. De manera similar, la "desviacin estndar de la distribucin de las proporciones de la muestra" se abrevia como error estndar de la proporcin. El trmino error estndar se utiliza porque da a entender un significado especfico. La variabilidad en las estadsticas de muestras proviene de un error de muestreo debido al azar; es decir, hay diferencias entre cada muestra y la poblacin, y entre las diversas muestras, debido nicamente a los elementos que decidimos escoger para las muestras. La desviacin estndar de la distribucin de las medias de las muestras mide el grado hasta el que esperamos que varen las medias de las diferentes muestras debido a este error fortuito cometido en el proceso de muestreo. Por tanto, la desviacin estndar de la distribucin de una estadstica de muestra se conoce como el error estndar de la estadstica. El error estndar indica no slo el tamao del error de azar que se ha cometido, sino tambin la probable precisin que obtendremos si utilizamos una estadstica de muestra para estimar un parmetro de poblacin. Una distribucin de medias de muestra que est menos extendida (y que tiene un error estndar pequeo) es un mejor estimador de la media de la poblacin que una distribucin de medias de muestra que est ampliamente dispersa y que tiene un error estndar ms grande. Uso del error estndar. Siempre que usamos pruebas, tenemos que tratar con el error estndar. Especficamente, necesitamos cierta medicin de la precisin del instrumento de prueba, generalmente representado por el error estndar. SUGERENCIA: El conocimiento de la distribucin de muestreo permite a los estadsticos planear muestras de tal forma que los resultados sean significativos. Debido a que resulta caro recabar y analizar muestras grandes, los administradores siempre procuran obtener la muestra ms pequea que proporcione un resultado confiable. Base conceptual para muestrear distribuciones. En la terminologa estadstica, la distribucin de muestreo que obtendramos al tomar todas las muestras de un tamao dado constituye una distribucin terica de muestreo. En casi todos los casos, los responsables de las decisiones slo toman una muestra de la poblacin, calculan estadsticas para esa muestra y de esas estadsticas infieren algo sobre los parmetros de toda la poblacin.

Muestreo de poblaciones normales. Si extraemos muestras de una poblacin normalmente distribuida y calculamos sus medias, debido a que estamos promediando para obtener cada media de muestra, se promediaran hacia abajo valores muy grandes de la muestra y hacia arriba valores muy pequeos. El razonamiento consistira en que nos estaramos extendiendo menos entre las medias de muestra que entre los elementos individuales de la poblacin original. Esto es lo mismo que afirmar que error estndar de la media, o la desviacin estndar de la distribucin de muestreo, sera menor que la desviacin estndar de los elementos individuales en la poblacin. El error estndar de la media obtenido para situaciones en las que la poblacin es infinita es: x = / n Para convertir cualquier variable aleatoria normal en una variable aleatoria normal estndar, debemos sustraer la media de la variable que se est estandarizando y dividir el resultado entre el error estndar (la desviacin estndar de dicha variable). En este caso particular:

Muestreo de poblaciones no normales. Cuando una poblacin est distribuida normalmente, la distribucin de muestreo de la media tambin es normal. Incluso en el caso en el que una poblacin no est normalmente distribuida, x, la media de la distribucin de muestreo, sigue siendo igual a la media de la poblacin, . Es decir, la distribucin de muestreo de la media se acerca a la normalidad, sin importar la forma de la distribucin de la poblacin. El teorema del lmite central. La media de la distribucin de muestreo de la media ser igual a la media de la poblacin. Al incrementarse el tamao de la muestra, la distribucin de muestreo de la media se acercar a la normalidad, sin importar la forma de la distribucin de la poblacin. Esta relacin entre la forma de la distribucin de la poblacin y la forma de la distribucin de muestreo se denomina teorema del lmite central, que es tal vez el ms importante de toda la inferencia estadstica. Nos asegura que la distribucin de muestreo de la media se aproxima a la normal al incrementarse el tamao de la muestra.

Hay situaciones tericas en las que el teorema del lmite central no se cumple, pero casi nunca se encuentran en la toma de decisiones prctica. Una muestra no tiene que ser muy grande para que la distribucin de muestreo de la media se acerque a la normal. Los estadsticos utilizan la distribucin normal como una aproximacin a la distribucin de muestreo siempre que el tamao de la muestra sea al menos de 30, pero la distribucin de muestreo de la media puede ser casi normal con muestras incluso de la mitad de ese tamao. La importancia del teorema del lmite central es que nos permite usar estadsticas de muestra para hacer inferencias con respecto a los parmetros de poblacin sin saber nada sobre la forma de la distribucin de frecuencias de esa poblacin ms que lo que podamos obtener de la muestra. SUGERENCIA: El teorema del lmite central nos permite utilizar las propiedades de la distribucin normal en muchos casos en los que los datos subyacentes no estn normalmente distribuidos. El hecho de que la distribucin de muestreo sea aproximadamente normal es la base de una amplia variedad de pruebas estadsticas diferentes. Relacin entre el tamao de la muestra y el error estndar. El error estndar es una medicin de la dispersin de las medias de muestras alrededor de la media de la poblacin. Si la dispersin disminuye (si x se hace ms pequea), entonces los valores tomados por la media de la muestra tienden a agruparse ms cercanamente alrededor de . Y a la inversa, si la dispersin se incrementa (si x se agranda), los valores tomados por la media de la muestra tienden a agruparse menos cercanamente alrededor de . Al disminuir el error estndar, el valor de cualquier media de muestra probablemente se acercar al valor de la media de la poblacin. Los estadsticos describen este fenmeno diciendo: al disminuir el error estndar, se incrementa la precisin con que se puede usar la media de muestra para estimar la media de poblacin. Debido al hecho de que x vara inversamente con la raz cuadrada de n, hay una utilidad decreciente en el muestreo. Es cierto que al muestrear ms elementos disminuye el error estndar, pero este beneficio puede no valer el costo. El aumento de precisin puede no valer el costo del muestreo adicional. Sea X una variable aleatoria con distribucin normal, con parmetros , 2. Si sacamos muestras de tamao n, y calculamos la media aritmtica, se demuestra que bajo ciertas condiciones, X tambin es una variable aleatoria con distribucin normal, con parmetros , 2/n. Es decir: Si X - N ( , 2), entonces X - N ( , 2/n)

Las dos distribuciones tienen la misma media, pero la dispersin de la media aritmtica es menor, tanto ms pequea cuando mayor sea el tamao de la muestra. Como en un proceso de inferencia es un parmetro desconocido, al extraer una muestra en particular y calcular x, no podemos determinar exactamente qu tan cerca estuvo esa estimacin del valor verdadero del parmetro. De lo nico que podemos estar seguros es que, al aumentar el tamao de la muestra, la distribucin de la media aritmtica tiende a concentrarse ms y ms alrededor de la media poblacional y, por tanto, las estimaciones van a estar ms prximas al valor del parmetro (desconocido). Lo ms relevante de la media aritmtica es que, an cuando la variable en estudio no tenga distribucin normal, o su distribucin sea desconocida, si el nmero de elementos de la muestra es suficientemente grande, por aplicacin del Teorema del Lmite Central, la media aritmtica igualmente va a tener aproximadamente distribucin normal. Por ltimo, es interesante remarcar la idea de que la media aritmtica es conceptualmente una variable aleatoria hasta el instante previo a calcular efectivamente su valor. Despus de efectuar ese clculo, tenemos un valor fijo (no aleatorio), y por lo tanto, deja de tener sentido hablar de la "probabilidad de la media aritmtica". El clculo de probabilidades con la media aritmtica tiene entonces validez en trminos tericos, es decir, representa "lo que se espera" que ocurra con dicha variable antes de tomar una muestra y calcular efectivamente su valor. El multiplicador de la poblacin finita. Para calcular el error estndar de la media, utilizamos la ecuacin: x = / n esta ecuacin est diseada para situaciones en las que la poblacin es infinita, o en las que tomamos muestras de una poblacin infinita con reemplazo. La frmula diseada para encontrar el error estndar de la media cuando la poblacin es finita y el muestreo se hace sin reemplazo es: x = / n x (N - n) / (N - 1) donde: N = tamao de la poblacin n = tamao de la muestra Este nuevo factor que aparece en la ecuacin y se multiplica al error estndar original se conoce como multiplicador de la poblacin finita.

Cuando muestreamos una pequea fraccin de la poblacin entera (es decir, cuando el tamao de la poblacin N es muy grande en relacin con el tamao de la muestra n), el multiplicador de la poblacin finita toma un valor cercano a 1. Los estadsticos se refieren a la fraccin n/N como la fraccin de muestreo, porque es la fraccin de la poblacin N contenida en la muestra. Cuando la fraccin de muestreo es pequea, el error estndar de la media para poblaciones finitas es tan cercano a la media para poblaciones infinitas, que bien podramos utilizar la misma frmula para ambas desviaciones. La regla generalmente aceptada es: si la fraccin de muestreo es menor a 0,05, no se necesita usar el multiplicar para la poblacin finita. Cuando utilizamos la ecuacin para poblaciones infinitas, es constante y, por tanto, la medida de la precisin de muestreo, x, depende solamente del tamao de la muestra n y no de la fraccin de poblacin muestreada. Es decir, para hacer x ms pequea slo es necesario agrandar n. En consecuencia, resulta que el tamao absoluto de la muestra es el que determina la precisin del muestreo, no la fraccin de la poblacin muestreada. SUGERENCIAS: Cuando desee calcular probabilidades con la media aritmtica, no olvide que al calcular la variable estandarizada, debe dividir por el desvo o error estndar de la media. Los resultados sern inexactos si omite este punto. Para verificar el funcionamiento de un proceso, medir el rendimiento de un mtodo, etc. necesitamos conocer su valor medio. Si debemos estimar ese valor a travs de la muestra, recuerde que la precisin de la estimacin aumenta con el incremento del tamao muestral. Evite realizar inferencias utilizando una sola observacin. La aplicacin del Teorema del Lmite Central hace de la media aritmtica una herramienta til, an en aquellos casos en que la distribucin de la variable en estudio no es conocida, o no es normal. La disminucin del error estndar no es directamente proporcional al tamao de la muestra, as que es conveniente compatibilizar precisin con costos. Conceptos. Censo: medicin o examen de cada elemento de la poblacin. Distribucin de muestreo de la media: una distribucin de probabilidad de todas las medias posibles de muestras de un tamao dado, n, de una poblacin. Distribucin de muestreo de una estadstica: para una poblacin dada, distribucin de probabilidad de todos los valores posibles que puede tomar una estadstica, dado un tamao de la muestra.

Error de muestreo: error o variacin entre estadsticas de muestra debido al azar, es decir, diferencias entre cada muestra y la poblacin, y entre varias muestras, que se deben nicamente a los elementos que elegimos para la muestra. Error estndar: la desviacin estndar de la distribucin de muestreo de una estadstica. Error estndar de la media: la desviacin estndar de la distribucin de muestreo de la media, una medida del grado en que se espera que varen las medias de las diferentes muestras de la media de la poblacin, debido al error aleatorio en el proceso de muestreo. Estadsticas: mediciones que describen las caractersticas de una muestra. Estimador o estadstico: cantidad que caracteriza a una muestra, y que sirve para aproximar el valor de un parmetro desconocido. Variable aleatoria, funcin de las observaciones muestrales, a travs de la cual tratamos de inferir el valor de un parmetro poblacional. Estimacin: valor particular de un estimador, que caracteriza a una muestra especfica. Estratos: grupos dentro de una poblacin formados de tal manera que cada grupo es relativamente homogneo, aunque existe una variabilidad ms amplia entre los diferentes grupos. Fraccin de muestreo: la fraccin o porcin de la poblacin contenida en una muestra. Inferencia estadstica: proceso de anlisis que consiste en inferir las propiedades de una poblacin en base a la caracterizacin de la muestra. Muestra: subconjunto de la poblacin seleccionado mediante algn criterio particular. Porcin de elementos de una poblacin elegidos para su examen o medicin directa. Muestreo no aleatorio: conformacin de la muestra en base al conocimiento o experiencia del observador. Muestreo aleatorio: conformacin de la muestra usando mtodos al azar. Muestreo aleatorio simple: mtodos de seleccin de muestras que permiten a cada muestra posible una probabilidad igual de ser elegida y a cada elemento de la poblacin completa una oportunidad igual de ser incluido en la muestra. Muestreo con reemplazo: procedimiento de muestreo en el que los elementos se regresan a la poblacin despus de ser elegidos, de tal forma que algunos elementos de la poblacin pueden aparecer en la muestra ms de una vez. Muestreo de juicio: mtodo para seleccionar una muestra de una poblacin en el que se usa el conocimiento o la experiencia personal para identificar aquellos elementos de la poblacin que deben incluirse en la muestra.

Muestreo de probabilidad o aleatorio: mtodo para seleccionar una muestra de una poblacin en el que todos los elementos de la poblacin tienen igual oportunidad de ser elegidos en la muestra. Muestreo estratificado: la poblacin se divide en estratos, y luego se muestra en forma proporcional en cada estrato. Mtodo de muestreo aleatorio en el que la poblacin se divide en grupos homogneos, o estratos, y los elementos dentro de cada estrato se seleccionan al azar de acuerdo con una de dos reglas: 1) un nmero especfico de elementos se extrae de cada estrato correspondiente a la porcin de ese estrato en la poblacin; 2) igual nmero de elementos se extraen de cada estrato, y los resultados son valorados de acuerdo con la porcin del estrato de la poblacin total. Muestreo de racimo (o por conglomerados): la poblacin se divide en racimos y luego se elige aleatoriamente una muestra de racimos. Mtodo de muestreo aleatorio en el que la poblacin se divide en grupos o racimos de elementos y luego se selecciona una muestra aleatoria de estos racimos. Muestreo sin reemplazo: procedimiento de muestreo en el que los elementos no se regresan a la poblacin despus de ser elegidos, de tal forma que ningn elemento de la poblacin puede aparecer en la muestra ms de una vez. Muestreo sistemtico: los elementos de la muestra son elegidos a intervalos fijos. Mtodo de muestreo aleatorio usado en estadstica en el que los elementos que se muestrearn se seleccionan de la poblacin en un intervalo uniforme que se mide con respecto al tiempo, al orden o al espacio. Multiplicador de la poblacin finita: factor que se utiliza para corregir el error estndar de la media en el estudio de una poblacin de tamao finito, pequeo con respecto al tamao de la muestra. Parmetro: valor fijo que caracteriza a una poblacin. Valores que describen las caractersticas de una poblacin. Poblacin: conjunto de elementos que son objeto de un estudio estadstico. Poblacin finita: poblacin que tiene un tamao establecido o limitado. Precisin: el grado de exactitud con el que la media de la muestra puede estimar la media de la poblacin, segn revela el error estndar de la media. Racimos: grupos dentro de una poblacin que son esencialmente similares entre s, aunque los grupos mismos tengan amplia variacin interna. Teorema del lmite central: resultado que asegura que la distribucin de muestreo de la media se acerca a la normalidad cuando el tamao de la muestra se incrementa, sin importar la forma de la distribucin de la poblacin de la que se selecciona la muestra.

ESTIMACIN. El material sobre teora de la probabilidad constituye la base de la inferencia estadstica, rama de la estadstica que tiene que ver con el uso de los conceptos de la probabilidad para tratar con la toma de decisiones en condiciones de incertidumbre. La inferencia estadstica est basada en la estimacin y en la prueba de hiptesis. Tipos de estimacin. Podemos hacer dos tipos de estimaciones concernientes a una poblacin: Una estimacin puntual: es slo u nmero que se utiliza para estimar un parmetro de poblacin desconocido. Una estimacin puntual a menudo resulta insuficiente, debido a que slo tiene dos opciones: es correcta o est equivocada. Una estimacin puntual es mucho ms til si viene acompaada por una estimacin del error que podra estar implicado. Una estimacin de intervalo: es un intervalo de valores que se utiliza para estimar un parmetro de poblacin. Esta estimacin indica el error de dos maneras: por la extensin del intervalo y por la probabilidad de obtener el verdadero parmetro de la poblacin que se encuentra dentro del intervalo. Estimador y estimaciones. Un estimador es una estadstica de muestra utilizada para estimar un parmetro de poblacin. La media de la muestra puede ser un estimador de la media de la poblacin, y la porcin de la muestra se puede utilizar como estimador de la porcin de la poblacin. Tambin podemos utilizar el alcance de la muestra como un estimador del alcance de la poblacin. Cuando hemos observado un valor numrico especfico de nuestro estimador, nos referimos a ese valor como una estimacin. Una estimacin es un valor especfico observado de una estadstica. Hacemos una estimacin si tomamos una muestra y calculamos el valor que toma nuestro estimador en esa muestra. Criterios para seleccionar un buen estimador.

Imparcialidad. Se refiere al hecho de que una media de muestra es un estimador no sesgado de una media de poblacin, porque la media de distribucin de muestreo de las medias de muestras tomadas de la misma poblacin es igual a la media de la poblacin misma. Podemos decir que una estadstica es un estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores que estn por encima del parmetro de la poblacin y la misma extensin con la que tiende a asumir valores por debajo del parmetro de poblacin que se est estimando. Eficiencia. Se refiere al tamao del error estndar de la estadstica. Si comparamos dos estadsticas de una muestra del mismo tamao y tratamos de decidir cul de ellas es un estimador ms eficiente, escogeramos la estadstica que tuviera el menor error estndar o la

menor desviacin estndar de la distribucin de muestreo. Tiene sentido pensar que un estimador con un error estndar menor (con menos desviacin) tendr una mayor oportunidad de producir una estimacin ms cercana al parmetro de poblacin que se est considerando. Coherencia. Una estadstica es un estimador coherente de un parmetro de poblacin si al aumentar el tamao de la muestra, se tiene casi la certeza de que el valor de la estadstica se aproxima bastante al valor del parmetro de la poblacin. Si un estimador es coherente, se vuelve ms confiable si tenemos tamaos de muestras ms grandes. Suficiencia. Un estimador es suficiente si utiliza una cantidad de la informacin contenida en la muestra que ningn otro estimador podra extraer informacin adicional de la muestra sobre el parmetro de la poblacin. Una estadstica de muestra dada no siempre es el mejor estimador de su parmetro de poblacin correspondiente. Considere una poblacin distribuida simtricamente, en la que los valores de la mediana y de la media coinciden. En este caso, la media de la muestra sera un estimador imparcial de la mediana de la poblacin debido a que asumira valores que en promedio seran iguales a la mediana de la poblacin. Tambin, la media de la muestra sera un estimador consistente de la mediana de la poblacin, puesto que, conforme aumenta el tamao de la muestra, el valor de la media de la muestra tender a acercarse bastante a la mediana de la poblacin. Y la media de la muestra sera un estimador ms eficiente de la mediana de la poblacin que la mediana misma, ya que en muestras grandes, la media de la muestra tiene una desviacin estndar menor que la mediana de la muestra. Al mismo tiempo, la mediana de la muestra de una distribucin distribuida simtricamente sera un estimador imparcial y consistente de la media de la poblacin, pero no el ms eficiente estimador, porque en muestras grandes su error estndar es mayor que el de la media de la muestra. Estimaciones puntuales. La media de la muestra es el mejor estimador de la media de la poblacin. Es imparcial, coherente, el estimador ms eficiente y, siempre y cuando la muestra sea la suficientemente grande, su distribucin de muestreo puede ser aproximada por la distribucin normal. Si conocemos la distribucin de muestreo de la media, podemos llegar a conclusiones con respecto a cualquier estimacin que podamos hacer a partir de la informacin de muestreo. Estimacin puntual de la varianza y de la desviacin estndar de la poblacin. El estimador utilizado con ms frecuencia para hacer la estimacin de la desviacin estndar de la poblacin, es la desviacin estndar de la muestra: s2 = (x - x)2 / (n - 1) Al utilizar un divisor n - 1, nos da un estimador imparcial de 2.

Estimacin puntual de la porcin de la poblacin. La porcin de unidades de una poblacin dada que posee una caracterstica particular se representa mediante el smbolo p. Si conocemos la porcin de unidades de una muestra que tiene la misma caracterstica, podemos utilizar esa p como estimador de p. Se puede mostrar que p tiene todas las caractersticas deseables: es imparcial (no sesgado), coherente, eficiente y suficiente. SUGERENCIA: Incluso cuando estamos utilizando el mejor estimador de un parmetro de poblacin, aceptamos que puede estar implicado algo de error. Afirmamos que la estimacin puntual y la medida de la varianza proporcionan informacin til para las decisiones. Estimaciones de intervalo. El propsito de tomar muestras es para conocer ms acerca de una poblacin. Podemos calcular esa informacin a partir de las muestras como estimaciones puntuales, o como estimaciones de intervalo. Una estimacin de intervalo describe un intervalo de valores dentro del cual es posible que est un parmetro de poblacin. Si seleccionamos y representamos grficamente un gran nmero de medias de muestras de una poblacin, la distribucin de tales medias se aproximar a la curva normal. Adems, la media de las medias de muestra ser la misma media de la poblacin. Probabilidad de que el verdadero parmetro de la poblacin est dentro de la estimacin de intervalo. En lo que concierne a cualquier intervalo particular, ste contiene a la media de la poblacin o no la contiene, pues la media de la poblacin es un parmetro fijo, y no vara. Cuando las organizaciones informan la precisin de encuestas de opinin como "estos resultados son precisos en ms menos tres puntos", por lo general no establecen el nivel de confianza que estn utilizando para hacer la estimacin de intervalo. Una afirmacin ms completa tendra la forma. "existe un 95% de probabilidad de que la verdadera opinin de la poblacin caiga dentro del intervalo comprendido entre ..... y ........" Estimaciones de intervalo e intervalos de confianza. La probabilidad que asociamos con una estimacin de intervalo se conoce como nivel de confianza. Esta probabilidad indica qu tanta confianza tenemos de que la estimacin de intervalo incluya al parmetro de poblacin. Una probabilidad ms alta indica ms confianza. El intervalo de confianza es el alcance de la estimacin que estamos haciendo. Expresaremos el intervalo de confianza en trminos de errores estndar, ms que con valores numricos. Los lmites de confianza son los lmites superior e inferior del intervalo de confianza Relacin entre el nivel de confianza e intervalo de confianza.

Podra pensarse que deberamos utilizar un nivel alto de confianza en todos los problemas sobre estimaciones. En la prctica, sin embargo, altos niveles de confianza producen intervalos de confianza grandes, y stos no son precisos, dan estimaciones bastante imprecisas. Uso del muestreo y de la estimacin de intervalos de confianza. A menudo resulta difcil o caro tomar ms de una muestra de una poblacin. Basados en solamente una muestra estimamos el parmetro de poblacin. El intervalo de confianza quiere decir que si seleccionamos muchas muestras aleatorias del mismo tamao y si calculamos un intervalo de confianza para cada una de las muestras, tendremos un porcentaje de confianza determino de que en todos los casos la media de la poblacin caer dentro del intervalo. Por otro lado, existe un cierto equilibrio entre la certidumbre de la estimacin y el ancho de un intervalo de confianza. Clculo de estimaciones de intervalo de la media a partir de muestras grandes. Se calcula el error estndar de la media para una poblacin infinita: x = / n Posteriormente, se establecen los lmites de confianza superior e inferior, considerando el porcentaje de confianza requerido. Cuando no se conoce la desviacin estndar. Cuando no se conoce la desviacin estndar de la poblacin, utilizamos la desviacin estndar de la muestra para estimar la desviacin estndar de la poblacin: s2 = [(x - x)2 / (n - 1)] La frmula para derivar el error estndar de la media de poblaciones finitas es: x = { / n} x (N - n) / N - 1) A partir de esto, podemos calcular el error estndar de la media mediante la desviacin estndar de la poblacin: x = { x/ n} x (N - n) / N - 1) SUGERENCIA: Cuando tenemos muestras grandes, utilizamos el Teorema del Lmite Central, nuestro conocimiento de la curva normal y nuestra habilidad para hacer correcciones para poblaciones finitas.

Determinacin del tamao de la muestra. Siempre que tomamos una muestra, perdemos algo de informacin til con respecto a la poblacin. El error de muestre se puede controlar si seleccionamos una muestra cuyo tamao sea el adecuado. En general, cuanta ms precisin se quiera, ms grande ser el tamao de la muestra necesaria. Para calcular el tamao de muestra, podemos utilizar la frmula del error estndar de la media: x = / n Si no conocemos la desviacin estndar de la poblacin, podemos utilizar el alcance de la poblacin para obtener una estimacin burda pero manejable de la desviacin estndar. Sabemos que ms menos tres desviaciones estndar incluyen 99,7% del rea total bajo la curva normal, esto es, ms tres desviaciones estndar y menos tres desviaciones estndar de la media incluyen casi toda el rea de la distribucin. SUGERENCIAS: Un estimador es una variable aleatoria, y por lo tanto es posible asociarle probabilidades, lo que resulta de suma utilidad como herramienta auxiliar para la toma de decisiones bajo condiciones de incertidumbre. Una estimacin, en cambio, es un valor particular del estimador, calculado en base a una muestra dada. Por tanto, constituye un valor fijo (no aleatorio) que caracteriza a esa muestra en particular, pero que se usa para inferir el valor de un parmetro desconocido. Entre un estimador puntual y uno por intervalos, es preferible usar este ltimo porque tiene asociado una probabilidad que contempla el error que se puede cometer en la aproximacin. Conceptos. Estimacin: valor especfico de un estimador, calculado en base a una muestra dada. Estimacin de intervalo: intervalo de valores utilizado para estimar un parmetro de poblacin desconocido. Estimacin de parmetros: Aproximacin del valor de parmetros poblacionales desconocidos mediante el empleo de estadsticos muestrales. Estimacin puntual: un solo nmero que se utiliza para estimar un parmetro de poblacin desconocido. Estimador: estadstica de muestra utilizada para estimar un parmetro de poblacin. Conceptualmente es una variable aleatoria.

Estimador coherente: estimador que produce valores que se acercan ms al parmetro de la poblacin conforme aumenta el tamao de la muestra. Estimador eficiente: estimador con un menor error estndar que algn otro estimador del parmetro de la poblacin, esto es, cuanto ms pequeo sea el error estndar de un estimador, ms eficiente ser ese estimador. Estimador imparcial: estimador de un parmetro de poblacin que, en promedio, asume valores por encima del parmetro de la poblacin con la misma frecuencia, y al mismo grado, con que tiende a tomarlos por debajo del parmetro de la poblacin. Estimador suficiente: estimador que utiliza toda la informacin disponible en los datos correspondientes a un parmetro. Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que incluya el valor real del parmetro de la poblacin. Lmites de confianza: lmites inferior y superior de un intervalo de confianza. Nivel de confianza: probabilidad que los estadsticos asocian con una estimacin de intervalo de un parmetro de poblacin, sta indica qu tan seguros estn de que la estimacin de intervalo incluir el parmetro de la poblacin. Probabilidad, designada de antemano, de que un intervalo de confianza incluya al valor del parmetro desconocido. Propiedades de un buen estimador: caractersticas deseables de un estimador, para lograr la mejor aproximacin posible de un parmetro poblacional. PRUEBAS DE HIPTESIS. Una hiptesis es una afirmacin acerca de algo. En estadstica, puede ser una suposicin acerca del valor de un parmetro desconocido. Pasos en la prueba de hiptesis:

Definir la hiptesis nula: suponer una hiptesis acerca de una poblacin. Formular una hiptesis alternativa: es una contra-hiptesis. Definir un criterio de decisin para rechazar o no la hiptesis nula. Recabar datos de la muestra. Calcular una estadstica de muestra. Utilizar la estadstica de muestra para evaluar la hiptesis.

Generalmente, se habla de "no rechazar" una hiptesis en lugar de "aceptar", ya que las pruebas no son concluyentes. Introduccin. La prueba de hiptesis comienza con una suposicin, llamada hiptesis, que hacemos con respecto a un parmetro de poblacin. Despus recolectamos datos de muestra, producimos estadsticas de muestra y usamos esta informacin para decidir qu tan probable es que sea correcto nuestro parmetro de poblacin acerca del cual hicimos la hiptesis. Debemos establecer el valor supuesto o hipotetizado del parmetro de poblacin antes de comenzar a tomar la muestra. La suposicin que deseamos probar se conoce como hiptesis nula, y se simboliza H0. Siempre que rechazamos la hiptesis, la conclusin que s aceptamos se llama hiptesis alternativa y se simboliza H1. Interpretacin del nivel de significancia. El propsito de la prueba de hiptesis no es cuestionar el valor calculado de la estadstica de muestra, sino hacer un juicio respecto a la diferencia entre esa estadstica de muestra y un parmetro de poblacin hipotetizado. El siguiente paso despus de establecer la hiptesis nula alternativa consiste en decidir qu criterio utilizar para decidir si aceptar o rechazar la hiptesis nula. Si suponemos que la hiptesis es correcta, entonces el nivel de significancia indicar el porcentaje de medias de muestra que est fuera de ciertos lmites. Siempre que afirmemos que aceptamos la hiptesis nula, en realidad lo que queremos decir es que no hay suficiente evidencia estadstica para rechazarla. El empleo del trmino aceptar, en lugar de rechazar, se ha vuelto de uso comn. Significa simplemente que cuando los datos de la muestra n hacen que rechacemos una hiptesis nula, nos comportamos como si fuera cierta. Seleccin del nivel de significancia. Nuestra eleccin del estndar mnimo para una probabilidad aceptable, o el nivel de significancia, es tambin el riesgo que asumimos al rechazar una hiptesis nula cuando es cierta. Mientras ms alto sea el nivel de significancia que utilizamos para probar una hiptesis, mayor ser la probabilidad de rechazar una hiptesis nula cuando es cierta. Errores tipo I y tipo II. El rechazo de una hiptesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que es tambin el nivel de significancia) se simboliza como . El hecho de aceptar una hiptesis nula cuando es falsa se denomina error de tipo II, y su probabilidad se simboliza como . La probabilidad de cometer un tipo de error puede reducirse slo si deseamos incrementar la probabilidad de cometer el otro tipo de error. Con el propsito de

obtener una baja, tendremos que tolerar una alta. Los responsables de la toma de decisiones deciden el nivel de significancia adecuado, al examinar los costos o desventajas vinculadas con ambos tipos de errores. Pruebas de hiptesis de dos extremos y de un extremo. Una prueba de dos extremos de una hiptesis, rechazar la hiptesis nula si la media de muestra es significativamente mayor o menor que la media de la poblacin hipotetizada. Existen dos regiones de rechazo. Hay situaciones en las que no es apropiada una prueba de dos extremos, por lo que debemos usar una prueba de un extremo, que pueden ser de extremo izquierdo (o inferior) o extremo derecho (o superior). La nica forma de probar una hiptesis nula es conociendo el parmetro de poblacin, y eso no es posible al tomar una muestra. Por consiguiente, aceptamos la hiptesis nula y nos comportamos como si fuera cierta, simplemente porque no podemos encontrar evidencia para rechazarla. Medicin de la potencia de una prueba de hiptesis. Idealmente, tanto como (las probabilidades de los errores tipo I y II deben ser pequeas. Una vez que decidimos el nivel de significancia, no hay nada que podamos hacer con respecto a. Cuando la hiptesis nula es falsa, (la media de la poblacin cierta) no es igual a la media hipotetizada. Puesto que rechazar una hiptesis nula cuando es falsa es exactamente lo que debe hacer una buena prueba, un valor alto de 1 - significa que la prueba est trabajando bastante bien (est rechazando la hiptesis nula cuando es falsa. Puesto que 1 - es la medida de qu tan bien trabaja la prueba, se la conoce como la potencia de la prueba. Si representamos grficamente los valores 1 - por cada valor de para el que la hiptesis alternativa es cierta, la curva resultante se conoce como curva de potencia. SUGERENCIAS: Conviene plantear la hiptesis nula siempre por la igualdad. Adapte la contrahiptesis de acuerdo con el objetivo del problema. Formule la hiptesis en base a los objetivos del estudio, pero siempre antes de extraer la muestra y calcular el estimador puntual del parmetro desconocido, para no verse influenciado por este resultado. Tenga en cuenta que si bien la hiptesis nula es la que se pone bajo prueba, eso no significa que deba ser siempre la suposicin que el experimentador desea que se compruebe.

Como en todo proceso de inferencia, existe algn grado de subjetividad en la realizacin de una prueba, particularmente en la eleccin del nivel de significancia y del tamao de la muestra. Trate de que la eleccin de estos valores responda a un anlisis cuidadoso del problema en cuestin. Una vez fijadas las condiciones de la prueba, el resultado de la misma es totalmente objetivo. Para fijar el nivel de significancia de la prueba, hay que tener en cuenta que cuando la probabilidad del error tipo I aumenta, la del error tipo II disminuye. La forma de minimizar el error tipo II independientemente del nivel de significancia, es aumentando el tamao de la muestra. Como las probabilidades de los errores tipo I y II estn relacionadas entre si, pero el experimentador puede fijar la primera, antes de elegir el nivel de significancia hay que ver cul de los dos tipos de errores resulta ms crtico. Conceptos: Alfa: probabilidad de cometer un error de tipo I. Beta: probabilidad de cometer un error de tipo II. Curva de potencia: grfica de los valores de la potencia de una prueba por cada valor de , u otro parmetro de poblacin, para el que la hiptesis alternativa es cierta. Error de tipo I: rechazo de una hiptesis nula cuando es cierta. Error de tipo II: aceptacin de una hiptesis nula cuando es falsa. Escala estandarizada: medicin en desviaciones estndar a partir de la media de la variable. Escala sin procesar: medicin en las unidades originales de la variable. Hiptesis: suposicin o especulacin que hacemos con respecto a un parmetro de poblacin. Hiptesis alternativa: conclusin que aceptamos cuando los datos no respaldan la hiptesis nula. Hiptesis estadstica: afirmacin acerca del valor de un parmetro desconocido, o sobre la distribucin de una variable. Hiptesis nula: hiptesis o suposicin con respecto a un parmetro de poblacin que deseamos probar. Nivel de significancia: valor que indica el porcentaje de valores de muestra que estn fuera de ciertos lmites, suponiendo que la hiptesis nula es correcta, es decir, se trata de la probabilidad de rechazar la hiptesis nula cuando es cierta.

Potencia de prueba de hiptesis: probabilidad de rechazar la hiptesis nula cuando es falsa, es decir, una medida de qu tan bien funciona la prueba de hiptesis. Prueba de hiptesis: experimento que pone bajo prueba una hiptesis estadstica, para decidir si es verdadera o falsa. Prueba de dos extremos: prueba de hiptesis en la que la hiptesis nula se rechaza si el valor de muestra es significativamente menor o mayor que el valor hipotetizado del parmetro de poblacin, prueba que involucra dos regiones de rechazo. Prueba de extremo inferior: prueba de hiptesis de un extremo en la que un valor de la muestra que se encuentra significativamente por debajo del valor de la poblacin hipotetizada, nos llevar a rechazar la hiptesis nula. Prueba de extremo superior: prueba de hiptesis de un extremo en la que un valor de muestra significativamente superior al valor de poblacin hipotetizado nos llevar a rechazar la hiptesis nula. Prueba de un extremo: prueba de hiptesis en la que slo hay una regin de rechazo, es decir, slo nos interesa si el valor observado se desva del valor hipotetizado en una direccin. Valor crtico: valor de la estadstica estndar (z) ms all del cual rechazamos la hiptesis nula; el lmite entre las regiones de aceptacin y rechazo. INTRODUCCIN A LA ESTADSTICA NO PARAMTRICA. Las pruebas de hiptesis hacen inferencias respecto a los parmetros de la poblacin, como la media. Estas pruebas paramtricas utilizan la estadstica paramtrica de muestras que provinieron de la poblacin que se est probando. Para formular estas pruebas, hicimos suposiciones restrictivas sobre las poblaciones de las que extraamos las muestras. Por ejemplo: suponamos que las muestras eran grandes o que provenan de poblaciones normalmente distribuidas. Pero las poblaciones no siempre son normales. Los estadsticos han desarrollado tcnicas tiles que no hacen suposiciones restrictivas respecto a la forma de las distribuciones de las poblaciones. stas se conocen como pruebas sin distribucin, o pruebas no paramtricas. Las hiptesis de una probabilidad no paramtrica se refieren a algo distinto del valor de un parmetro de poblacin Ventajas de los mtodos no paramtricos.

No requieren que hagamos la suposicin de que una poblacin est distribuida en forma de curva normal u otra forma especfica. Generalmente, son ms fciles de efectuar y comprender. Algunas veces, ni siquiera se requiere el ordenamiento o clasificacin formal.

Desventajas de los mtodos no paramtricos.

Ignoran una cierta cantidad de informacin A menudo, no son tan eficientes como las pruebas paramtricas. Cuando usamos pruebas no paramtricas, efectuamos un trueque: perdemos agudeza al estimar intervalos, pero ganamos la habilidad de usar menos informacin y calcular ms rpidamente. PRUEBA DE KOLMOGOROV.SMIRNOV. Se trata de un mtodo no paramtrico sencillo para probar si existe una diferencia significativa entre una distribucin de frecuencia observada y otra frecuencia terica. Es otra medida de la bondad de ajuste de una distribucin de frecuencia terica. Se basa en la comparacin de distribuciones acumuladas: la distribucin acumulada de los datos observados y la distribucin acumulada terica correspondiente al modelo elegido. Tiene varias ventajas: es una prueba poderosa y fcil de utilizar, puesto que no requiere que los datos se agrupen de determinada manera. Es particularmente til para juzgar qu tan cerca est la distribucin de frecuencias observada de la distribucin de frecuencias esperada, porque la distribucin de probabilidad Dn depende del tamao de muestra n, pero es independiente de la distribucin de frecuencia esperada (Dn es una estadstica de distribucin libre). Para calcular la estadstica K-S, simplemente se elige Dn (la desviacin absoluta mxima entre las frecuencias observadas y tericas). Una prueba K-S siempre debe ser una prueba de un extremo. Luego se busca el valor crtico en la tabla, para las n observaciones, considerando el nivel de significancia adoptado. Si el valor de la tabla es mayor que el valor de Dn, entonces aceptaremos la hiptesis nula. SUGERENCIAS: La prueba de Kolmogorov puede usarse con muestras muy pequeas, en donde no se pueden aplicar otras pruebas paramtricas. Podemos usar la prueba de Kolmogorov para verificar la suposicin de normalidad subyacente en todo anlisis de inferencia. Si bien constituye una prueba de implementacin sencilla, tenga en cuenta que carga con las desventajas de los mtodos no paramtricos en general, en el sentido de producir resultados menos precisos que los procedimientos convencionales.

Cuando trabaje con muestras pequeas, recuerde usar la frecuencia cumulada experimental. Conceptos: Pruebas de bondad de ajuste: pruebas de hiptesis que ponen bajo prueba una afirmacin acerca de la distribucin de una variable aleatoria. Prueba de Kolmogorrov-Smirnov: prueba no paramtrica que no requiere que los datos se agrupen de ninguna manera para determinar si existe diferencia significativa entre la distribucin de frecuencia observada y la distribucin de frecuencia terica. Pruebas no paramtricas: tcnicas estadsticas que no hacen suposiciones restrictivas respecto a la forma de la distribucin de poblacin al realizar una prueba de hiptesis.